“국어·체육·수학·역사 과목을 아우르는 남북의 초중고 교과서를 분석해 양국의 전문용어를 데이터베이스(DB)로 구축하는 작업을 추진하려고 합니다.”
소강춘(61·사진) 국립국어원장이 6일 오전 서울 중구의 한 식당에서 열린 취임 100일 기념 간담회에서 “남북통일은 어렵고 험난한 길이지만 남북의 언어를 통합하는 작업은 쉽게 할 수 있다”며 이같이 말했다. 소 원장은 “현재 국립국어원 내부적으로 7,000단어 정도를 추출해놓은 상태”라며 “곧 남북 공동연락사무소를 통해 이 사업 추진을 위한 북한의 의견을 타진하려고 한다”고 덧붙였다.
국립국어원이 구상하는 이 사업은 ‘삼국시대(남한)-세 나라 시기(북한)’ 등 양국이 다르게 기술하고 있는 용어들을 한데 모아 DB로 우선 구축한 뒤 통일 이후 한반도의 민중이 더 많이 사용하는 단어를 표준 용어로 최종적으로 채택하자는 아이디어를 담고 있다. 소 원장은 “남북의 이해 증진과 한민족 언어 통합을 위해 DB 구축 외에도 다양한 인적 교류를 이어가려고 한다”며 “내년 10월 남북이 공동으로 참여하는 학술회의를 개최하고 통일부가 주도하는 ‘겨레말큰사전’ 편찬 작업도 적극적으로 협조하고 지원할 것”이라고 말했다. 지난 1989년부터 전주대 국어교육과 교수로 재직하면서 방언, 남북 언어, 국어 정보화, 국어사 등 국어학 분야에서 연구 성과를 쌓은 소 원장은 8월 말 제11대 국립국어원장으로 부임했다.
소 원장은 이날 간담회에서 4차 산업혁명 시대 인공지능(AI) 활용을 위한 ‘말뭉치 구축’ 프로젝트 계획도 소상히 밝혔다. 컴퓨터가 인간의 말과 글을 제대로 이해하고 반응하려면 인간이 말하고 쓰는 언어를 처리할 수 있는 방대한 DB가 필요한데 이러한 언어 DB를 ‘말뭉치’라고 한다. 최근 빠르게 보급되는 음성인식 AI의 정확도는 이러한 말뭉치가 얼마나 풍부하고 정교하게 구축돼 있느냐에 달려 있다고 해도 과언이 아니다. 국립국어원이 새롭게 추진하는 말뭉치 구축 프로젝트는 1998~2007년 10년 동안 진행한 ‘21세기 세종계획’의 후속 사업이다. 21세기 세종계획으로 국립국어원은 2억어절의 말뭉치를 구축하는 데 성공했다. 소 원장은 “이번 후속 사업으로 내년 말까지 신문 기사와 국회 속기록, 문학 작품 등 다양한 텍스트를 바탕으로 총 10억어절의 DB를 완성하는 것이 목표”라며 “이를 위해 내년에만 204억원의 예산이 투입된다”고 설명했다. 그러면서 “미국은 3,000억어절, 중국은 800억어절, 일본은 150억어절 정도를 현재 보유하고 있는 것으로 파악된다”며 “우리도 앞으로 10년 정도 장기적인 관점을 갖고 일본처럼 150억어절 정도의 DB를 마련해 4차 산업혁명 시대에 대응하려고 한다”고 덧붙였다. /나윤석기자 nagija@sedaily.com 사진제공=국립국어원
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >