[우리곁에 다가온 AI] 이모지로 만화 캐릭터 만들듯 목소리만으로 범죄자 얼굴 가려낸다

전체서비스

문화·스포츠

서경스타

스페셜 컨텐츠

이용안내

보내는 사람
받는 사람	※ 여러명에게 보낼 경우 콤마(,)로 구분하세요.

보내는 사람

받는 사람

※ 여러명에게 보낼 경우 콤마(,)로 구분하세요.

[우리곁에 다가온 AI] 이모지로 만화 캐릭터 만들듯 목소리만으로 범죄자 얼굴 가려낸다

입력2019-12-10 17:09:31 수정 2019.12.10 17:09:31 송영규 기자

인공지능(AI)에 대한 연구가 활발해지면서 주목을 끌 만한 참신한 논문들이 거의 매주 쏟아지는 것 같다. 그중 올 5월 매사추세츠공대(MIT)의 연구진들이 발표한 ‘Speech2Face’라는 논문에서는 몇 초 정도로 짧게 사람의 목소리를 들려주기만 하면 그것을 듣고 그 사람의 얼굴 특징을 찾아주는 놀라운 능력을 보여줬다. 그래서 ‘Learning the face behind a voice(목소리의 배후 얼굴 학습)’라는 말이 논문의 부제로 붙어 있다.

우리가 전화나 라디오 등에서 상대방을 볼 수는 없지만 목소리를 듣는 것만으로도 나이·성별·고향 등을 알아내는 것은 기본이고 어떤 경우에는 그 사람의 얼굴을 추정해낼 수도 있다. 그것은 살아오면서 부지불식 간에 사람의 목소리와 얼굴 간 상호 연관성을 습득했기 때문이며 사실 비슷한 구강 구조를 가진 사람들이 비슷한 목소리를 낼 수 있기 때문에 과학적으로 근거가 없는 이야기도 아니다.

MIT 연구진들은 이 점에 착안해 연구를 시작했다. 수 초 정도의 목소리와 얼굴 영상을 함께 학습 데이터로 사용해 특정 목소리와 얼굴 특징 간의 연관관계를 딥러닝을 통해 찾아내는 것이다. 그렇기 때문에 사람의 목소리를 듣고 정확하게 그 사람의 얼굴을 추정해내는 것이 아니라 그런 목소리를 내는 사람들의 공통적인 얼굴 특징을 보여주는 것이 목표다.

학습 방법도 주목할 만하다. 전체 과정에서 가장 어렵고 시간이 걸리는 작업이 학습에 필요한 데이터를 준비하는 과정이다. 사람이 일일이 얼굴과 목소리 데이터에 주석을 달아 주는 방식으로 연관성을 확보할 만큼의 충분한 데이터를 확보한다는 것은 너무 힘들다. 그래서 ‘자기 지도학습(self-supervised learning)’이라는 기법을 사용했는데 별도의 주석이 없어도 유튜브 동영상에서 10만명 이상의 다른 사람들이 말하는 장면으로부터 목소리와 얼굴 특징 간의 연관성을 자연스럽게 취득했다.

결과가 상당히 흥미롭다. 사람들의 성별·나이·민족과 같은 일반적인 특징뿐만 아니라 각지고 둥글거나 길쭉한 모양 등 얼굴의 구조까지 비교적 잘 추정해내는 것을 확인할 수 있다. 물론 결과는 학습에 사용한 데이터의 영향을 받기 때문에 소수이거나 동양인이 영어를 말하거나 하는 경우처럼 일반성을 확보하기 어려운 경우에는 만족스럽지 못한 결과가 나오기도 한다. 상용이 아니라 어떤 경향성을 찾으려는 연구목적으로 개발을 한 것이지만 추후 보강연구를 통해 개선이 기대된다. 휴대폰에서 이모지 기능을 통해 만화 같은 캐릭터를 만들어 냈듯이 목소리 데이터를 이용해 만화 캐릭터를 만들어 낼 수도 있고 물론 항상 예외는 존재하기 때문에 지나친 일반화는 금물이겠지만 목소리만으로 범죄자의 얼굴을 추정하는 등 다양한 활용이 가능하다.

이제 AI 연구는 점점 사람의 상상력만이 오직 한계인 무한한 가능성을 보이는 분야가 돼가는 것 같다.