정부가 지난 7월 발표한 디지털 뉴딜의 10대 대표과제 중 하나인 ‘데이터 댐’은 디지털 전환을 선도하기 위해 14만여 개 공공데이터를 민간이 활용할 수 있도록 기반을 마련하기 위한 사업이다. 데이터 댐은 △인공지능(AI) 학습용 데이터 구축 △AI 바우처 △AI데이터 가공 바우처 사업 △AI 융합 프로젝트(AI+X) △클라우드 플래그십 프로젝트 △클라우드 이용 바우처 사업 △빅데이터 플랫폼 및 센터 구축 등 7개 사업으로 구성돼 있다.
솔트룩스는 자회사와 함께 과학기술정보통신부와 한국정보화진흥원에서 주최·주관하는 ‘인공지능(AI) 학습용 데이터 구축’ 사업 중 6개 분야에 선정됐다. 주제지정 과제는 △자연어 분야 ‘한국어 방언 AI 데이터’ △자연어 분야 ‘한국어-영어 번역 말뭉치 AI 데이터’ △자연어 분야 ‘한국어-중국어/일본어 번역 말뭉치 AI 데이터’ △미디어 분야 ‘영상 콘텐츠 이해 AI 데이터’ 등이다. 자유 과제는 △지역 분야 ‘폐암 예후 예측을 위한 AI 데이터’ 등이 있다.
특히 이 중 가장 큰 규모의 사업인 ‘한국어 방언 AI 데이터’는 솔트룩스가 15년 이상의 초대규모 학습용 데이터 구축 전문성을 바탕으로 주관사를 맡고 지역언어·데이터 구축·품질 검수 등 부문별 전문성을 보유한 16개 기관이 함께 참여하는 컨소시엄으로 사업을 진행한다. 솔트룩스는 이미 국립국어원 음성 구어 수집 및 원시 말뭉치, 일상대화 말뭉치 구축 사업 등을 수행 중이다.
이외에도 정보통신산업진흥원의 인공지능 바우처 지원사업을 VR.AR 전문기업 프론티스와 공동으로 추진하며, 한국데이터산업진흥원의 데이터 바우처 사업 역시 지식큐레이션 관련 전체 14건을 수주했다.
솔트룩스 관계자는 “솔트룩스는 아시아 최대 규모의 지식베이스 등 초대규모 AI 데이터를 꾸준히 구축해 왔으며, 엑소브레인 등 200억원 규모 이상의 대형 AI 사업에 대한 수행 경험과 노하우를 보유하고 있다”며 “인공지능 개발에 필수적인 양질의 학습 데이터 구축이 핵심인 만큼 4단계 품질 관리 공정 등 솔트룩스가 보유한 역량을 총동원해 99.9% 고품질 AI 데이터를 구축하는 데 최선을 다하겠다”고 말했다. 또한 “본 사업을 위한 신규채용을 진행하면서 일자리 창출에도 기여할 수 있을 것”이라고 덧붙였다. /wown93@sedaily.com
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >