전체메뉴

검색
팝업창 닫기
이메일보내기

통계청, ‘AI 통계 오류’ 없앤다…세계 최초 '메타데이터 DB 설계'[Pick코노미]

“AI가 숫자 맥락까지 이해…통계 오류 근본 차단”

연내 설계도 초안 공개…내년 시범 테스트 및 구축

통계청, 정보화 전략계획 마련 중

2027년 국제 표준화 추진…민간에 오픈소스로 공개





우리나라 통계청이 인공지능(AI)의 고질적인 약점으로 꼽히는 ‘통계 산출 오류'를 해결할 기술적 해법을 찾아 연내에 설계도 초안을 전 세계 최초로 발표할 예정이다. 숫자마다 설명 태그를 붙이고 이를 지식 그래프 형태로 연결하는 메타데이터 데이터베이스(DB) 설계에 성공한 것이다. 통계청이 AI 선도기관으로서 국제 표준을 선도할 토대를 마련했다는 평가가 나온다.

15일 서울경제신문 취재를 종합하면 통계청은 올해 12월 안에 메타데이터 DB 설계도 초안을 공개할 예정이다. 그동안 챗GPT 같은 초거대언어모델(LLM)은 통계표나 도표를 단순한 텍스트 뭉치로 인식해 통계 산출에 큰 오류가 있었다. 표 안의 실업률·고용률 수치가 어떤 산식과 정의를 거쳐 계산된 것인지, 적용 연령이나 지역이 어디인지 같은 맥락을 전혀 이해하지 못한 것이다. 이 때문에 “최근 10년 한국 실업률 최고치는 월별 기준으로 언제인가”와 같은 간단한 질문에도 엉뚱한 답을 내놓거나 아예 응답을 포기하는 사례가 잦았다. 통계청 관계자는 “AI가 표를 제대로 읽지 못하면 국가 정책 의사 결정이나 민간 연구에서 심각한 오류가 발생할 수 있다”고 말했다.

이같은 AI의 통계 산출 오류를 없애고 도표로 정확한 데이터를 산출하는 능력을 키우기 위해 통계청은 1년간 실무 작업에 착수했고 결국 설계에 성공했다. 통계청이 설계한 메타데이터 DB는 ‘온톨리지 스키마’ 방식이 핵심이다. 온톨리지는 데이터 속 개념과 관계를 지식 그래프 형태로 구조화하는 기술이다. 단순히 숫자 배열이 아니라 ‘정의·단위·적용 대상·출처·개정 이력’ 같은 의미 태그를 표에 입히는 것이다. 예컨대 실업률 지표라면 △산식(실업자÷경제활동인구×100) △단위(%) △적용 연령·지역 △출처 △개정 이력 등이 함께 기록된다. 이렇게 되면 AI는 숫자 하나를 맥락이 담긴 데이터로 인식할 수 있고, 질문자가 시계열 분석을 요구할 때도 오류 없이 정확한 그래프를 제시할 수 있게 된다. 메타데이터 DB가 통계청의 설계대로 온전히 구축된다면 사용자가 오픈AI에서 ‘최근 10년치 고용률 수치를 도표로 그려달라’는 주문을 하면 오류 없이 오픈AI가 작업을 수행할 수 있게 된다. AI 혁명이 일어나는 셈이다.

안형준 통계청장(가운데)이 28일 웨스틴조선 서울에서 열린 '제14회 국가통계발전포럼'에서 주요 참석자들과 함께 기념 촬영을 하고 있다. 사진 제공=통계청.




통계청은 지난 6월 중순에 열린 OECD 통계정책위원회 회의에서 이 같은 메타데이터 구조화를 준비하는 한국의 전략을 발표했다. 당시 OECD 회원국 대표단들은 “드디어 기다리던 해법이 나왔다”며 크게 환호했던 것으로 알려졌다. AI와 통계의 접목은 각국이 고민하던 과제였지만 개념·정의·출처까지 포함하는 메타데이터 구조를 실제 설계로 구현한 것은 한국이 처음이다.

통계청은 오는 12월 안으로 메타데이터 DB 설계도 초안을 공개하고 내년에는 정보전략계획(ISP)을 수립해 데이터 범위, 표준, 보안 원칙, 시스템 연계 방안 등을 확정하기로 했다. 이를 위해 기재부 예산실로부터 시범 예산 5억원을 확보해 AI 연계 실험을 진행한다. 메타데이터 DB와 온톨리지 스키마 설계도 초안이 AI와 연계됐을 때 제대로 작동하는지 시범 테스트를 내년에 진행하게 되는 것이다.

시범 테스트로 문제가 없다고 판정되면 2027년에는 150억 원 규모의 예산이 투입돼 본격 표준화 작업이 추진된다. 통계청은 국내 통계 작성 기관에 표준을 우선 배포한 뒤 효용성을 입증해 국제 표준화까지 이어갈 계획이다.

통계청에 따르면 이번 프로젝트의 중요한 목표 중 하나는 공공기관뿐만 아니라 국내외 AI 사용자의 메타데이터 DB 활용을 가능하게 하는 것이다. 이에 통계청은 메타데이터를 오픈소스 형태로 전면 공개하는 것을 검토 중이다. 전면 공개시 구글 등 플랫폼 사업자뿐만 아니라 민간 AI 개발자나 연구자들이 블로그, 유튜브 같은 불명확한 출처에서 데이터를 잘못 가져오는 오류를 막을 수 있게 된다. 특히 메타데이터가 도표를 해석할 수 있는 능력을 가지게 돼 데이터를 도표로 제시할 수 있게 된다. 통계청 고위 관계자는 "메타데이터를 민간이 자유롭게 활용하면, AI 생태계 전반의 데이터 정확성과 신뢰도가 크게 높아질 것”이라고 강조했다. 이어 “한국이 국제 표준화까지 주도한다면 AI 데이터 강국으로 도약하는 중요한 계기가 될 것”이라고 덧붙였다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >
주소 : 서울특별시 종로구 율곡로 6 트윈트리타워 B동 14~16층 대표전화 : 02) 724-8600
상호 : 서울경제신문사업자번호 : 208-81-10310대표자 : 손동영등록번호 : 서울 가 00224등록일자 : 1988.05.13
인터넷신문 등록번호 : 서울 아04065 등록일자 : 2016.04.26발행일자 : 2016.04.01발행 ·편집인 : 손동영청소년보호책임자 : 신한수
서울경제의 모든 콘텐트는 저작권법의 보호를 받는 바, 무단 전재·복사·배포 등은 법적 제재를 받을 수 있습니다.
Copyright ⓒ Sedaily, All right reserved

서울경제를 팔로우하세요!

서울경제신문

텔레그램 뉴스채널