전체메뉴

검색
팝업창 닫기
이메일보내기

한국어 빅데이터 '모두의 말뭉치' 공개

국립국어원이 지난 25일 한국어 분야의 빅데이터인 ‘모두의 말뭉치’를 공개했다고 26일 밝혔다.

모두의 말뭉치에는 인공지능(AI)의 한국어 처리능력 향상에 필수적인 한국어 학습자료 13종, 18억어절 분량이 수록돼 있다.

문화체육관광부와 국어원은 1998~2007년 추진한 ‘21세기 세종계획’에서 약 2억어절의 자료를 구축, 공개한 바 있는데 이번 자료는 이에 더해 일상 대화, 메신저 등 구어체의 비중을 높였다.



모두의 말뭉치에는 최근 10년간의 신문기사와 책 2만188종, 음성 대화와 메신저 대화, 방송자료, 대본, 블로그·게시판 자료 210만건 등이 공개돼 있다. 이 자료들은 모두의 말뭉치 사이트에서 온라인 약정서를 작성한 후 승인되면 파일을 내려받아 이용할 수 있다.
/송영규기자 skong@sedaily.com
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >
주소 : 서울특별시 종로구 율곡로 6 트윈트리타워 B동 14~16층 대표전화 : 02) 724-8600
상호 : 서울경제신문사업자번호 : 208-81-10310대표자 : 손동영등록번호 : 서울 가 00224등록일자 : 1988.05.13
인터넷신문 등록번호 : 서울 아04065 등록일자 : 2016.04.26발행일자 : 2016.04.01발행 ·편집인 : 손동영청소년보호책임자 : 신한수
서울경제의 모든 콘텐트는 저작권법의 보호를 받는 바, 무단 전재·복사·배포 등은 법적 제재를 받을 수 있습니다.
Copyright ⓒ Sedaily, All right reserved

서울경제를 팔로우하세요!

서울경제신문

텔레그램 뉴스채널

서경 마켓시그널

헬로홈즈

미미상인