[우리곁에 다가온 AI] 제품 설명서·소설·기행문...영상으로 재생되는 시대 온다

전체서비스

문화·스포츠

서경스타

스페셜 컨텐츠

이용안내

보내는 사람
받는 사람	※ 여러명에게 보낼 경우 콤마(,)로 구분하세요.

보내는 사람

받는 사람

※ 여러명에게 보낼 경우 콤마(,)로 구분하세요.

[우리곁에 다가온 AI] 제품 설명서·소설·기행문...영상으로 재생되는 시대 온다

입력2019-09-10 17:32:11 수정 2019.09.10 17:32:11 송영규 기자

곧 민족 최대의 명절 추석이다. ‘추석’ 하면 생각나는 이미지를 묘사해보라고 하면 어떤 사람은 황금 들녘을 떠올릴 수도 있고 다른 사람은 귀향·귀성 차량으로 꽉 막힌 고속도로를 연상할 수도 있다. ‘추석 무렵의 풍성한 황금 들녘’이라고 좀 더 구체화시킨다면 누렇게 익은 벼가 고개를 숙인 들판, 삐죽 서 있는 허수아비, 길가에 하늘거리는 코스모스나 억새, 높은 가을 하늘의 새털구름, 멀리 보이는 산이나 작은 마을과 같은 대상이 선택적으로 포함된 영상을 떠올릴 것이다. 물론 살아온 경험이나 현재 기분 등에 따라 들판의 생김새나 배치, 허수아비나 코스모스와 같은 세부 대상의 포함 여부 등이 다를 수 있다. 하지만 중요한 사실은 사람은 말이나 글로 표현된 개념을 지식이나 경험에 기반해 영상의 형태로 쉽게 떠올릴 수 있는 능력이 있다는 점이다.

인공지능(AI)도 사람처럼 문장이 주어지면 그것을 적합한 영상으로 변환하는 기술, 일명 TTI(Text-to-Image) 변환 기술이 쉽게 가능할까. 활발하게 연구되고 있는 분야지만 몇 가지 이유로 인해 어려움이 있어 왔다. 우선 TTI 기술은 문장 해석과 영상 해석·생성이라는 양쪽 기술에 크게 의지하고 있는데 그간 많은 발전이 있었지만 여전히 갈 길이 멀다. 둘째, 문장에 기술된 개념과 그것을 영상으로 표현했을 때의 관계 문제다. 가령 ‘즐거운 콘서트 현장’을 표현할 수 있는 영상이 무수히 많은 것처럼 같은 개념일지라도 얼마든지 다른 영상이 가능하기 때문에 학습 데이터를 정하는 것도 쉽지 않고 학습 결과의 정확도를 판정하는 것 역시 애매하다. 셋째, 스키 타는 영상을 생성한다면 스키 위치는 발에 부착돼야 정상인 것처럼 영상 속에 있는 대상과 대상들 간의 관계가 어색하거나 이상하게 보이면 안 된다.

지난 2014년 적대적생성신경망(GAN)이 개발된 후 영상 생성 기술이 크게 발전했다. 제한된 범위에서 생생한 영상을 생성해내는 것이 가능하고 사진이나 동영상에서 사람의 얼굴만 다른 사람의 얼굴로 감쪽같이 바꾸는 것도 가능하게 됐다. 그래서 문장을 영상으로 변환하는 것도 쉽게 보이지만 앞서 살펴본 것과 같은 어려움들로 인해 여전히 난제였다.

하지만 올해 발표된 마이크로소프트의 논문(Obj-GAN이라는 망을 소개)을 보면 작은 돌파구가 만들어진 것 같다. 기존 방식들과 달리 먼저 문장에 담긴 핵심 정보에 맞춰 대상들의 관계까지 고려한 박스를 배치한 후에 그 박스 안에 대상의 구체적인 형상을 위치시키고 세세한 배경을 입히는 방식을 취한다. 이렇게 단계적인 접근법을 취함으로써 이전보다는 훨씬 그럴듯한 영상을 생성하는 것이 가능해졌다. 논문에 실린 결과 영상들을 보면 아직 아쉬운 점이 많지만 접근 방식이 꽤 훌륭하기에 앞으로가 기대된다. 제품설명서·소설·기행문 등에서 와 닿지 않던 부분도 생생한 영상으로 볼 날이 머지않은 것 같다.