전체메뉴

검색
팝업창 닫기
이메일보내기

AI가 엄마 목소리로 동화책 읽어주는 시대 열렸다

네이버 "4시간 분량 음성 있으면 목소리 합성 가능"

곧 서비스 출시…구글은 40시간 이상의 음성 필요

4일 서울시 강남구 서초동 ‘D2스타트업팩토리’에서 개최된 네이버 테크포럼에서 네이버 클로바 관계자들이 음성합성 기술에 대해 설명하고 있다/사진=네이버




이제 4시간 분량의 음성만 있으면 기계가 사람의 목소리를 똑같이 따라 할 수 있게 됐다.

네이버는 구글 등 업체보다 훨씬 짧은 샘플로도 특정인의 목소리를 기계가 흉내 낼 수 있는 음성합성 기술을 개발했다고 4일 밝혔다. 김재민 네이버 음성합성 리더는 이날 서울 강남구 역삼동 ‘D2 스타트업 팩토리’에서 열린 기술 포럼에서 “개인화 음성합성의 문제는 음성녹음 시간인데, 우리가 그것을 4시간으로 풀어냈다”며 “곧 서비스가 나올 것”이라고 말했다.

특정인의 목소리를 기계가 자유롭게 흉내 내려면 일종의 ‘샘플 음성’이 필요하다. 구글 같은 업체도 최소 40시간 분량의 음성이 필요하고, 많게는 100시간까지 들어간다는 게 네이버의 설명이다.

그러나 네이버는 자체 개발한 하이브리드 음성합성 엔진으로 필요 음성분을 기존의 10분의 1로 줄였다. 이 기술을 활용하면 인공지능(AI) 스피커 등에서 유명인 목소리를 다양하게 활용할 수 있는 것은 물론이고, 엄마 목소리로 읽어주는 동화 같은 서비스도 가능해진다고 네이버는 설명했다.

구글이 지난 5월 음성합성 기술 ‘듀플렉스’를 선보이며 실제 가게에 주문하는 사례를 시연한 것에 대해선 “우리도 소리는 만들 수 있다”면서도 “다른 서비스와 연계돼야 하는 문제”라고 김 리더는 말했다.



그는 또 음성합성으로 파생될 윤리적 문제에 대해서 “현재는 걱정할 만큼의 수준은 아니다”라면서도 기계가 합성한 음성에는 음악을 까는 등 조치가 준비돼 있다고 소개했다.

네이버는 자연스러운 음성인식 및 합성 기술을 위한 자연어 처리(NLU) 기술 개발과 관련, 기존 네이버 서비스의 검색 및 데이터베이스(DB)에 쌓인 자료를 적극적으로 활용하고 있다고 설명했다.

강인호 언어처리 리더는 “2,500만 건에 달하는 지식인 문서로부터 사용자의 언어 표현 행동을 습득했다”며 “워낙 좋은 DB가 있어서 기술 면에서 압도적”이라고 말했다. 또 화자 인식 기술을 곧 적용, 올해 하반기 중에는 AI 스피커가 특정인의 목소리를 구분할 수 있게 된다고 네이버는 밝혔다.

/홍승희인턴기자 shhs9501@sedaily.com
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >
# 관련태그
#네이버
주소 : 서울특별시 종로구 율곡로 6 트윈트리타워 B동 14~16층 대표전화 : 02) 724-8600
상호 : 서울경제신문사업자번호 : 208-81-10310대표자 : 손동영등록번호 : 서울 가 00224등록일자 : 1988.05.13
인터넷신문 등록번호 : 서울 아04065 등록일자 : 2016.04.26발행일자 : 2016.04.01발행 ·편집인 : 손동영청소년보호책임자 : 신한수
서울경제의 모든 콘텐트는 저작권법의 보호를 받는 바, 무단 전재·복사·배포 등은 법적 제재를 받을 수 있습니다.
Copyright ⓒ Sedaily, All right reserved

서울경제를 팔로우하세요!

서울경제신문

텔레그램 뉴스채널

서울경제 1q60