• 뉴스 듣기

  • 글자 크기

    글자 크기 설정

    • 보통

    • 크게

    • 아주 크게

  • 기사 공유

  • 북마크

  • 다크모드

  • 프린트

네이버 채널구독

다음 채널구독

AI 모델서 중국산 뺀 네이버…‘자체 비전 인코더’ 전면 적용

中 큐웬 배제하고 자사 비전 인코더 내재화 작업

한국어·문화 직결 멀티모달 구조…소버린 AI 박차

입력2026-04-17 09:36

네이버클라우드 로고. 사진 제공=네이버클라우드
네이버클라우드 로고. 사진 제공=네이버클라우드

네이버가 ‘독자 인공지능(AI) 파운데이션 모델(독파모)’ 개발 프로젝트 당시 논란이 불거졌던 중국 비전 인코더를 완전히 들어내고, 자체 개발한 비전 인코더를 자사 AI 모델에 전면 적용한다.

17일 업계에 따르면 네이버클라우드는 지난달 초 독자적인 비전 인코더 개발을 마치고, 향후 개발하는 멀티모달 모델 전반에 이를 적용하기 위한 내재화 작업에 돌입했다.

비전 인코더는 이미지·영상 정보를 AI가 이해할 수 있는 형태로 변환하는 모듈을 말한다. 텍스트·이미지·음성·영상 정보를 종합적으로 다루는 멀티모달 모델에서 일종의 ‘시신경’ 역할을 수행한다.

네이버클라우드가 새롭게 개발한 비전 인코더는 기존의 자체 인코더 기술인 ‘VUClip’보다 성능을 대폭 개선한 모델이다. 현재 오픈소스 생태계에서 활용성이 검증된 중국의 큐웬 등 최상위권 수준인 인코더에 필적한 수준의 성능을 확보한 것으로 보인다.

앞서 네이버클라우드는 올해 초 정부 주도의 독파모 프로젝트에 참여하는 과정에서 자사 멀티모달 모델 ‘하이퍼클로바X 시드 32B 싱크’에 알리바바가 개발한 큐웬 2.5 모델의 비전 인코더와 가중치를 일부 차용했다가 거센 비판에 직면했다. 학습 초기 단계부터 자체 기술로 구축하는 ‘프롬 스크래치(From Scratch)’ 원칙을 내세운 독파모 취지와 배치된다는 주장이 나오면서다.

당시 네이버클라우드는 “비전 인코더는 언제든 교체할 수 있고, 교체가 불가능한 핵심 영역도 아니다”고 해명했다.

다만 이미 오픈소스로 배포된 ‘하이퍼클로바X 시드 32B 싱크’의 인코더 교체 여부는 미정인 것으로 알려졌다.

이번에 개발된 비전 인코더는 AI를 학습 단계부터 한국어로 훈련시켜 별도 번역 과정 없이 이미지와 한국어를 직접 연결하는 구조를 갖춘 것이 핵심이다. 예컨대 기존의 글로벌 인코더들이 우리나라 ‘하르방’ 이미지를 단순히 ‘석상(Statue)’이라는 영어 단어로 인식하는 한계가 있었다면, 네이버 모델은 이미지를 보는 즉시 ‘하르방’이라는 한글 단어로 받아들이는 방식이다.

한국어와 이미지를 직접 연결하도록 설계돼 정보 왜곡 없이 우리나라 문화 특유의 맥락을 읽어낼 수 있는 점이 차별적 요소로 떠오른 셈이다. 네이버클라우드는 이를 통해 한국의 지리나 문화, 고유 명사가 포함된 시각 데이터를 다룰 때 외산 모델에 비해 독보적인 정확도를 보여주는 모델로 활용해 ‘소버린 AI’ 전략을 강화할 방침이다.

이 기사를 추천합니다.

ⓒ 서울경제신문, 무단 전재-재배포, AI 학습 및 활용 금지

다음
이전
다음
이전