자율 주차부터 수학 공부까지…AI에 딱 맞게 데이터 가공한다
과기정통부, ‘AI 학습용데이터 업사이클링’ 사업 진행
기존 AI허브 데이터→추론용 학습 데이터로 고도화
AI허브 데이터 691종 中 30종 생성형 AI용 데이터로
입력2026-05-07 12:00
빠르게 변화하는 인공지능(AI) 기술에 발맞춰 판별형 AI 중심 라벨링 데이터를 생성형 AI용 데이터로 전환하는 사업이 추진된다.
7일 과학기술정보통신부와 한국지능정보사회진흥원은 기존 AI허브에서 제공하던 AI 학습용 데이터를 최신 기술 환경에 맞게 재가공하는 ‘AI 학습용데이터 업사이클링’ 사업 공고가 이달 30일 시작된다고 밝혔다.
이번 사업은 대규모 언어 모델(LLM)과 피지컬 AI 분야에 각각 15종씩, 총 30종(총 30억 원 투입)의 데이터셋을 전환할 예정이다. 학습 데이터를 재가공하는 것이 신규 구축하는 것에 비해 예산 투입 대비 정책효과가 높다는 것이 정부의 판단이다.
정부는 재가공 전환 대상을 선정하는 과정에서 기존 AI허브에 2022년까지 구축됐던 데이터 691종을 전수분석하고 생성형 AI용 데이터로의 확장 가능성과 데이터 활용도가 가장 높은 것들을 추려냈다.
2026년 AI 학습용데이터 업사이클링 대상 예시
LLM 데이터 분야에서는 기존 텍스트 데이터를 기반으로 질문-근거 검토-오류 검증-답변 확정에 이르는 추론 과정을 포함하도록 데이터를 재구성한다.
이를 통해 단일 정답을 제시하는 것을 넘어 다양한 판단 경로와 자기 검증 과정을 학습할 수 있는 데이터로 확장할 계획이다. 특히 동일한 문제에 대해 복수의 추론 경로를 구성하고 근거 기반 판단 및 오류 수정 과정을 포함해 복잡한 문제 해결이 가능한 추론형 AI 학습 기반을 마련할 예정이다.
피지컬 AI 분야에서는 기존 이미지 및 영상 데이터를 기반으로 시각 정보(V)·언어명령(L)·행동 및 제어(A)를 통합한 구조로 데이터를 고도화한다.
이를 통해 객체 인식 수준을 넘어, 시간 흐름에 따른 상황 변화와 객체 간 상호작용을 이해하고 목표 기반 행동을 생성할 수 있는 데이터로 확장할 계획이다. 특히 연속적인 장면 정보와 객체 움직임 데이터를 활용해 행동 경로와 작업 목표를 정의할 수 있는 형태로 재구성한다.
업사이클링된 데이터는 향후 AI허브를 통해 공개돼 기업·연구기관·스타트업 등이 자유롭게 활용할 수 있도록 할 예정이다.
과기정통부 최동원 인공지능인프라정책관은 이날 “이번 업사이클링 사업을 통해 적은 비용으로도 최신 생성형 AI 기술 환경에 맞는 AI 학습용데이터를 확보할 수 있을 것”이라며 “이미 축적된 데이터 자산이 낭비되지 않도록 활용 가치를 끌어올려 나가겠다”고 밝혔다.
이 기사를 추천합니다.
ⓒ 서울경제신문, 무단 전재-재배포, AI 학습 및 활용 금지