모두의 말뭉치에는 인공지능(AI)의 한국어 처리능력 향상에 필수적인 한국어 학습자료 13종, 18억어절 분량이 수록돼 있다.
문화체육관광부와 국어원은 1998~2007년 추진한 ‘21세기 세종계획’에서 약 2억어절의 자료를 구축, 공개한 바 있는데 이번 자료는 이에 더해 일상 대화, 메신저 등 구어체의 비중을 높였다.
모두의 말뭉치에는 최근 10년간의 신문기사와 책 2만188종, 음성 대화와 메신저 대화, 방송자료, 대본, 블로그·게시판 자료 210만건 등이 공개돼 있다. 이 자료들은 모두의 말뭉치 사이트에서 온라인 약정서를 작성한 후 승인되면 파일을 내려받아 이용할 수 있다.
/송영규기자 skong@sedaily.com
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >