AI로 복원한 가수, 진짜 같아진 까닭은? (영상)

보내는 사람
받는 사람	※ 여러명에게 보낼 경우 콤마(,)로 구분하세요.

인공지능(AI)으로 고인이 된 가수를 되살리고 가상현실(VR) 속에서 사별한 부인과 남편을 다시 만나게 하는 일. 기술의 힘을 빌려 감동을 선사하는 방송 프로그램들이 최근 연이어 눈길을 끌고 있다.

작년 말 엠넷에서 방영됐던 ‘AI 음악 프로젝트 - 다시 한 번’에서는 13년 전 숨진 그룹 거북이의 리더 터틀맨(임성훈)과 1990년 작고한 가수 김현식이 각각 최신곡을 부르는 모습을 확인할 수 있었다. 글자를 음성으로 옮기는 TTS(텍스트 투 스피치) 방식에 악보 정보와 목소리 정보값을 입력해 만든 가창 합성 기술이 사용됐다. 가수의 전성기 시절 모습 그대로 얼굴 표정과 입모양까지 생생하게 만들어내는 데는 페이스 에디팅(Face Editing) 기술이 적용됐다.

지난 21일 공개된 MBC 다큐멘터리 ‘너를 만났다 시즌2’ 첫 화에서는 모션 캡처와 VR 기술, 거기에 더해 아내의 음성을 성우와 합성하는 보이스 컨버전(Voice Conversion) 기술을 적용해 고인이 되기 전 아내의 모습과 음성을 그대로 구현해냈다. 오는 29일 방송하는 SBS ‘세기의 대결! AI vs 인간’에서도 1996년 세상을 떠난 김광석이 2002년 발표된 김범수의 ‘보고 싶다’를 부를 예정이다.

진짜 살아 돌아온 것처럼 고인의 생생한 얼굴과 목소리를 화면 속에 구현할 수 있었던 배경에는 몇 년 사이 급격히 고도화한 인공지능 기술이 중심에 있다. ‘생성적 적대 신경망(GAN)’이라고 부르는 방식이 대표적인데, 가짜를 합성해내는 신경망과 그 가짜가 진짜와 비슷한지 판별하는 신경망이 서로 경쟁하듯 싸우며 더 나은 결과물을 만들어내는 최신기술이다.

최근 화제가 된 ‘가수 AI 복원’의 경우에는 음성 합성 기술과 얼굴 합성 기술 등 GAN을 응용한 기술들 간의 협업을 통해 이뤄진 것이다. 실제 가수의 과거 사진과 영상 자료, 목소리 데이터 등을 수집한 뒤 인공지능이 수없이 반복 학습하며 고인의 모습과 목소리를 실제와 거의 흡사하게 창조해냈다. GAN을 활용한다면 복원할 가수의 데이터가 많이 부족한 상황에서도 퀄리티있는 결과물을 도출해 낼 수 있다는 장점이 있다. 홀로그램 복원에 그쳤던 예전 사례들과 달리 진짜같은 생생한 복원이 가능해지게 된 이유다.

이와 관련해 서울경제썸은 인공지능 기술 전문가와 최근 대담을 진행했다. 엠넷 ‘AI 음악 프로젝트 - 다시 한 번’에서 페이스 에디팅 기술로 터틀맨의 모습을 완벽 복원해냈던 CJ올리브네트웍스 DT융합연구소 손종수 소장과 이현기 연구원, 조준구 연구원이 대담에 참여했다.

Q. 페이스 에디팅 기술은 어떤 기술인가요?

-조준구 연구원 : 이번 엠넷 음악 프로젝트에 접목했던 기술인데요, 터틀맨 분의 기존 동영상 들에서 얼굴을 추출 해낸 뒤 그것을 기반으로 새로운 무대 영상에 들어갈 터틀맨 분의 얼굴을 생성해냈던 기술입니다. 두 달 정도 프로젝트를 진행했어요. 초반에는 터틀맨 분의 얼굴이 얼마나 잘 생성되는 지 테스트를 먼저 진행했었고 실질적으로 2, 3주 기간 동안 실제 방송에 쓰일 얼굴을 생성하는 데 시간을 많이 할애 했었습니다.

-이현기 연구원 : 대역 연기자 분을 촬영하고 얼굴만 합성하는 원리입니다. 복원할 대상의 얼굴 표정이 있는데, 말을 하게 되면 그 표정이 바뀌잖아요. 눈을 감는다거나 찡그린다거나...그걸 인식해서 동일하게 입모양까지 재현을 해내는 방식이죠. 이번 프로젝트의 경우는 저희가 최대한 퀄리티를 높게 뽑으려고 많이 노력을 했습니다.

-손종수 소장 : 원래 대역 분의 얼굴에 이미지를 합성하는 프로젝트를 위해 저희가 개발했던 기술이었어요. 올해 3월에 방영될 드라마인데. 도중에 CJ ENM에서 터틀맨 분의 얼굴을 복원해야 한다고 해서 저희가 급하게 참여하게 됐죠.

Q. 페이스 에디팅에 접목된 GAN 기술을 설명해주신다면?

-조준구 연구원 : 원래 한 가지 목표를 위해서 딥러닝 모델을 학습시키는 게 기본 방식이었는데, 거기에 한 가지 모델을 더한 것입니다. 기존 모델 플러스 다른 모델이 그 모델을 평가하는 것을 활용해서 다시 학습을 진행하는 방식이죠. 평가를 사람이 하는 게 아니라 다른 모델에게 맡김으로써 조금 더 좋은 퀄리티의 결과를 얻을 수 있다는 게 장점입니다. 가짜 데이터이지만 진짜인 것 같은 데이터를 확보할 수 있어 데이터가 적은 영역에서도 딥러닝을 활용할 수 있는 가능성이 열렸다고 보면 됩니다.

-손종수 소장 : 이 GAN 기술은 두 개예요. 하나는 가짜를 만들어내는 애. 다른 애는 그 가짜를 판별하는 애. 가짜를 만들어내는 애가 판별하는 애한테 '진짜 같아요?'하고 물어봅니다. '안 같아요'라고 하면 다시 학습을 시키고 또 물어보고. 그 과정을 컴퓨터가 계속 반복하는 거예요. 굉장히 충분히 학습이 되면 가짜가 만들어낸 게 진짜인지 가짜인지 판별이 안 되는 수준까지 갑니다. 그러면 이제 학습이 끝나죠. 그럼 충분히 학습이 끝난 상태에서는 걔가 만들어낸 거의 대부분의 이미지들이 터틀맨처럼 만들어질 수가 있는 겁니다.

-이현기 연구원 : 이 GAN 기술을 이용한 인공지능으로 음악이나 미술 작품을 만들어서 경매에 내놓고 고가에 팔리고 그런 케이스도 나오고 있어요. 그러니까, 사람이 만들어놓은 음악이나 사람이 그린 작품을 학습한 다음에 그걸 기반으로 만드는 건데. 구글에서도 딥드림(Deep Dream)이라는 AI 화가가 있는데 퀄리티가 괜찮아요. 하지만 어디서 많이 본 듯한 느낌은 들죠.

Q. 작업 과정에서 가장 어려웠던 순간은 언제였나요?

-조준구 연구원 : 터틀맨 분이 돌아가신 지가 좀 오래 돼서 아무래도 남아있는 영상 소스나 얼굴 데이터 자체가 워낙 저화질이어서, 방송에 나갈 만큼의 퀄리티를 가지고 있는 얼굴 데이터를 수집하는 데 가장 큰 어려움이 있었고요. 또한 얼굴을 생성했는데 그 얼굴이 사람들이 보기에 정말 그럴까하고 괜찮다는 평가를 받을 때까지 끊임없이 완벽한 터틀맨의 얼굴을 생성해내는 그 과정 자체가 또 어려웠던 것 같습니다.

Q. 방송 나간 뒤 화제가 됐는데, 내부 반응도 궁금합니다.

-이현기 연구원 : 일단 국내 방송에서 인공지능을 활용해 콘텐츠를 제작한 사례가 거의 없다보니, 새로운 방송 콘텐츠를 만들었다는 점에 큰 의미가 있다고 생각하고 있고요. 인공지능 기술을 활용해서 시청자들에게 감동을 줄 수 있었던 부분도 되게 의미가 있었다고 생각합니다.

Q. 다른 가수들도 복원해서 보고싶다는 반응이 많더라고요. 가능할까요?

-조준구 연구원 : 예를 들어 고 김성재(듀스) 씨 같은 경우는 굉장히 오래 전에 돌아가신 분이잖아요. 그런 분들은 데이터 자체가 굉장히 열악하기. 때문에 저희가 원하는 정도의 퀄리티까지 올리기 위해서는 조금 더 많은 테크닉들이 필요할 것 같아요. 어쨌든 이 콘텐츠를 소비해주시는 분들은 팬분 들인데 팬들은 스타의 모습을 너무나도 잘 기억하고 계시잖아요. 그분들의 기억을 훼손시키지 않을 만큼의 퀄리티를 만들어내는 것은 아직은 기술적으로 한계가 있습니다.

Q. 인공지능의 수준이 이제는 무섭다는 반응도 많았습니다. 어떻게 생각하시나요?

-손종수 소장 : 이게 사회적으로는 '딥페이크'라는 이름으로 많이 알려져 있는 기술이에요. 저희들이 만든 페이스 에디팅은 기존 딥페이크 기술을 약간 발전시켜서 만든 모델입니다. 인식이 그다지 좋지는 않죠. 많은 사회적 이슈, 윤리적 이슈가 있는 기술이라서 굉장히 조심스러운 기술이긴 합니다. 그래서 저희가 생각하는 것도 사회적 이슈가 될 만한 기술을 만드는 게 아니라 일상생활에 더 도움이 되고 휴머니티가 있는 쪽으로 적용을 할 수 있도록 노력을 많이 하고 있습니다. 나쁘게 쓰이면 사람도 죽일 수가 있는 건데, 이걸 얼마나 잘 쓸 것이냐에 초점을 맞춰서 논의를 해야 하지 않나 생각합니다.

-이현기 연구원 : 딥페이크 등 가짜 얼굴을 탐지해내는 기술에 대한 연구가 국내외에서 활발히 진행되고 있고, 사회적으로도 '딥페이크 처벌법'이 제정되면서 보완이 되고 있는 상황이죠. 저희도 합성 영상을 불법적으로 사용하는 것을 방지하기 위해서 블록체인 기술을 접목할 수 있는 방법에 대해서 고민도 하고 있습니다.

-조준구 연구원 : 사람같은 인공지능도 결국 사람이 만드는 거잖아요. 그걸 만든다는 건 사람이 사람 자체를 이해했기 때문에 그런 인공지능이 나온다고 생각하거든요. 원래 사람이 사람을 잘 모르잖아요. 앞으로 인공지능이 더 발달한다면 사람이 사람을 알게 된 시대니까 또 다른, 지금 저희가 상상할 수 없는 시대가 또 오지않을까 생각합니다.

Q. 몇 년 새에 인공지능이 일상과 가까워진 느낌이 드는데 그 이유는?

Q. 인공지능이 고도로 발달한다면 어떤 세상이 올까요.

Q. 그럼에도 인공지능이 대체할 수 없는 인간의 영역은 무엇일까요?

(영상을 통해서 자세한 이야기를 들을 수 있습니다.)

/강신우 기자 seen@sedaily.com