LG CNS, AI 대화 학습 위한 한국어 데이터 10만개 공개

전체서비스

문화·스포츠

서경스타

스페셜 컨텐츠

이용안내

보내는 사람
받는 사람	※ 여러명에게 보낼 경우 콤마(,)로 구분하세요.

보내는 사람

받는 사람

※ 여러명에게 보낼 경우 콤마(,)로 구분하세요.

LG CNS, AI 대화 학습 위한 한국어 데이터 10만개 공개

입력2019-09-05 12:01:31 수정 2019.09.05 15:03:55 권경원 기자

이주열 AI빅데이터연구소장이 5일 서울시 강서구 마곡 LG사이언스파크에서 열린 LG CNS AI커뮤니티 행사에서 코쿼드2.0을 소개하고 있다./사진제공=LG CNS

LG(003550) CNS는 인공지능(AI)의 자연어 이해를 위한 한국어 표준데이터 10만여개를 제작해 국내 최초로 AI 업계에 무료 개방한다고 5일 밝혔다.

해외에선 미국 스탠포드대학, 마이크로소프트(MS) 등이 제작한 영문 표준데이터가 있어 AI 개발에 활용되고 있지만 국내는 한국어 표준데이터가 없어 영문을 번역하거나 자체적인 데이터를 만들어야만 했다.

이에 따라 LG CNS는 지난해 12월 위키백과 정보를 기반으로 AI 학습용 한국어 표준데이터 7만개가 탑재된 ‘코쿼드 1.0’을 제작해 AI 업계에 공개했다. 쿼코드 1.0이 공개되자 AI 전문가들이 모인 국내 최대 오픈 커뮤니티 ‘텐서플로우 코리아’에선 폭발적인 반응이 이어졌다. 또 네이버와 카카오 등 AI 기술 기업들과 현업 종사자 등 50여개 팀이 코쿼드를 사용한 AI 개발에 나서기도 했다.

LG CNS는 서울 강서구 마곡 LG 사이언스파크에 국내 AI 전문가 300여명을 초청해 AI 커뮤니티 행사 ‘AI 테크 톡 포 NLU(자연어이해)’를 열어 코쿼드 2.0 출시를 발표했다.

관련기사

코쿼드2.0은 한국어 표준데이터를 기존 7만개에서 10만개로 확대하고 장문의 답변까지 가능한 AI를 개발할 수 있도록 데이터를 강화했다.

예를 들어 “대한민국의 수도와 그 면적은?” 질문에 “서울특별시, 605.25㎢ 입니다”라고 답하는 AI는 쿼코드 1.0 학습만으로도 개발할 수 있다. 하지만 “서울시의 특징은?” 이라는 질문에 “도시 중앙으로 한강이 흐르고 북한산, 관악산 등으로 둘러싸인...”이라는 장문의 답을 위해선 코쿼드 2.0으로 AI를 학습시켜야 한다.

새로 출시한 한국어 표준데이터는 ‘코쿼드 2.0’ 웹사이트에서 누구나 다운로드 받을 수 있다.

현신균 LG CNS CTO(부사장)는 “응용분야가 무궁무진한 AI 언어 개발 분야에서 내부적으로 쌓은 데이터를 AI 업계 전체에 개방해 국내 AI 연구자들 간 상생을 위한 AI 개방형 생태계 조성에 기여할 것”이라고 밝혔다.
/권경원기자 nahere@sedaily.com