국가 주도로 개발될 고성능 인공지능(AI) 모델을 평가할 수 있는 데이터넷 구축이 추진된다.
과학기술정보통신부는 ‘독자 AI 파운데이션 모델’ 사업으로 개발될 AI 모델 성능을 평가하기 위해 ‘성능 평가 데이터셋 구축 사업’ 수행기관을 17일부터 다음달 7일까지 공개 모집한다고 밝혔다.
데이터셋은 AI가 풀어야 할 문제와 정답으로 이뤄진 데이터 조합이다. 가령 특정 이미지와 그 이미지에 대한 설명 한쌍을 데이터셋으로 두고 실제 AI 모델이 해당 이미지를 얼마나 잘 설명할 수 있는지 평가할 수 있다. 기존 데이터셋은 대부분 영어 데이터로 구축된 탓에 국내에서 주로 쓸 한국어 AI 모델 평가에는 적합하지 않다는 한계가 있다.
과기정통부는 구축 사업자들에게 총 24억 원을 들여 한국어와 문화, 사회적 가치 등을 반영한 맞춤 AI 데이터셋 3종을 확보할 계획이다. 수학 문제 풀이 능력을 평가하는 ‘수학’, 역사·문화 같은 기본 지식을 평가하는 ‘지식’, 긴 글을 이해하는 능력을 보는 ‘장문 이해’ 등이다. 과기정통부는 향후 멀티모달(다중모델), 에이전트(비서) 등 다양한 영역 평가를 위한 데이터셋도 구축할 계획이다.
독자 AI 파운데이션 모델 사업은 글로벌 빅테크 대비 95% 수준 성능을 발휘할 수 있는 국산 AI 모델을 개발하는 사업이다. 사업자인 ‘AI 정예팀’은 그래픽처리장치(GPU) 등 개발 자원을 집중 지원받는다. 이달 21일까지 사업자를 모집한다.
김경만 과기정통부 인공지능기반정책관은 “국민이 체감할 수 있는 고성능 국내 독자 AI 파운데이션 모델을 확보하기 위해서는 그 성능을 평가하는 데이터셋도 국내 사회·문화 환경 등이 반영되어야 한다”며 “이번 사업을 통해 구축한 성능 평가 데이터셋은 정예팀 뿐만 아니라 향후 국내 AI 개발기관이 활용 할 수 있도록 공개할 계획이며 국내 AI 생태계 경쟁력 강화에 기여할 것으로 기대한다”고 말했다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >