LG(003550) AI연구원이 스스로 이미지를 인식해 설명하는 ‘캡셔닝 인공지능(AI)’을 처음으로 공개하고 상용화의 첫발을 내디뎠다.
LG AI연구원은 18일 캐나다 밴쿠버에서 열린 세계 최대 컴퓨터 비전 학회 ‘CVPR 2023’에서 생성형 AI 상용화 서비스인 ‘캡셔닝 AI’를 공개하고 기술을 시연했다.
캡셔닝 AI는 학습한 이미지·텍스트 데이터를 기반으로 이미지의 요소와 특징을 인식하고 설명하는 ‘제로샷 이미지 캡셔닝’ 기술을 적용했다. 이를 활용해 인간처럼 처음 보는 물체나 장면을 설명할 수 있다. 캡셔닝 AI는 이미지를 인식한 뒤 평균 5개의 문장과 10개의 키워드를 10초 내에 생성한다. 이미지가 1만 장이라면 2일 이내에 작업을 끝낼 수 있는 속도다. 대량의 이미지를 관리해야 하는 기업들의 효율성을 높이는 데 적합한 기술이다.
LG AI연구원은 이번 기술 개발 과정에서 미국의 이미지·영상 플랫폼 ‘셔터스톡’과 협업했다. 셔터스톡은 매일 수십만 개 이상 추가되는 시각 콘텐츠를 적합한 문장·길이·표현 방법으로 분류·검색하는 ‘이미지 캡셔닝’의 노하우를 보유하고 있다. LG AI연구원은 셔터스톡과 데이터 학습부터 서비스 개발까지 협업하며 완성도를 높였다. 이에 더해 신뢰할 수 있는 AI 모델 개발을 위해 학습 데이터의 편향성·선정성 등 AI 윤리 검증을 진행하고 저작권 투명성도 확보했다.
LG AI연구원은 이날 캡셔닝 AI의 기반 기술인 ‘제로샷 이미지 캡셔닝’을 주제로 서울대 AI대학원, 셔터스톡과 워크숍을 진행했다. 워크숍에는 LG AI연구원 최고 AI 사이언티스트(CSAI)인 이홍락 미시간대 교수를 비롯해 국내외 이미지 캡셔닝 분야의 세계적인 전문가들이 참여해 최신 연구 동향과 미래 전망 등을 논의했다. 자체 개발한 AI 모델의 이미지 이해 능력을 평가하는 대회인 ‘LG 글로벌 AI 챌린지’ 시상식도 열렸다.
김승환 LG AI연구원 비전랩장은 “이미지 캡셔닝 분야의 글로벌 연구 리더십을 확보하기 위해 다양한 파트너들과 유기적인 협력 체계를 구축해 새로운 평가 지표 개발과 신기술 연구를 계속 추진할 계획”이라고 말했다.
한편 LG AI연구원은 22일까지 진행되는 학회 기간 중 LG전자(066570)·LG이노텍(011070)·LG에너지솔루션(373220)·LG유플러스(032640) 등 LG 주요 계열사와 석·박사 학생 네트워킹 행사 ‘LG AI 데이’를 열고 우수 인재 확보에 나섰다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >