검색방식 진화로 달라지는 삶, 기업은 새로운 부가가치 창출한다

보내는 사람
받는 사람	※ 여러명에게 보낼 경우 콤마(,)로 구분하세요.

음성ㆍ영상 인식 기술의 급속한 발전으로 문자 기반의 검색 방식이 크게 변화하고 있다. 단순 문자와 키워드에 기반한 검색 방식에서 벗어나 사람의 음성 또는 TV의 영상을 통한 새로운 검색 방식이 빠르게 활성화 되고 있는 것이다. 이 같은 '검색의 진화'를 통해 우리 삶이 어떻게 달라지는지, 그리고 음성ㆍ영상인식 기술의 다양한 활용을 통해 우리 기업들은 어떤 새로운 기회를 모색하고 있는지 알아 본다.

김의준 기자 eugene@hmgp.co.kr

삼성전자는 지난 1월 초에 열린 세계 최대 가전 쇼 'CES 2013'에서 획기적인 기술을 공개했다. 실시간 방송 검색 및 추천 기능(S-Recommendation)이다. 이 기술은 사용자가 TV로 음성 검색을 하면 양방향 커뮤니케이션을 통해 사용자가 원하는 검색 결과를 제시한다. 예를 들어, 사용자가 TV한테 "오늘 뭐 재미있는 거 안 해?"라고 물으면 스마트 TV가 알아서 사용자 취향에 맞는 방송 또는 영화를 찾아주는 형식이다. TV는 사용자의 과거 검색 자료와 방송 시청 기록을 기반으로 사용자 개인에게 최적화 된 검색 결과를 알려 준다. 사용자는 음성 교류(Voice Interaction)를 통해 TV의 기본적인 음향 설정이나 채널 변경뿐 아니라 개인에게 최적화 된 방송 관련 뉴스나 추가 정보를 다방면으로 검색할 수 있다. 음성 인식 기술을 통해 사용자와 기계 간의 양방향 소통이 이뤄지고, 영상 인식 기술을 통해 기계는 사용자의 시청 패턴을 분석해 최적화 된 검색 결과를 산출하게 된다.

윤부근 삼성전자 사장(CE 부문장)은 말한다. "올해 우리 목표는 소비자가 기대하는 것뿐 아니라 가능하다고 생각하지 못했던 것까지 제공해 소비자가 새로운 가능성을 발견하게 하는 것입니다. TV를 통해 소비자가 더 많은 것을 할 수 있도록 새로운 콘텐츠 제공은 물론 TV와 새로운 방식의 소통방법도 제공 할 것입니다." 이는 음성.영상 인식 기술이 포괄적으로 적용된 통합 스마트 시대로의 세대 교체가 빠르게 진행 되고 있기 때문에 가능하다.

기계가 사용자와 직접 소통해 필요한 정보 제공

검색 기술 방식이 빠르게 발전하며 기계 자체가 진화하고 있다. 기존 텍스트에 기반한 일방적인 검색 방식에서 탈피해 이제는 기계가 음성 및 영상 인식 기술을 활용하여 사용자와 직접 소통을 하고 사용자에게 필요한 정보를 미리 제시해 준다. 현재의 음성 인식 기술은 단순 명령어를 텍스트로 전환시켜 주던 수준에서 벗어나 자연어, 즉 형식에 구애 받지 않고 일상에서 사람이 쓰는 언어를 기계가 인식하여 사용자가 찾는 정보나 그에 상응하는 답변을 추출해서 보내주는 수준에 도달했다.

현재 구글이 제공하는 검색 방식은 기본적으로 사람들이 가장 많이 찾는 자료, 가장 많이 인용한 자료를 자동으로 검색해 주는 체계이다. 하지만 앞으로 발전될 검색의 방향은 음성 인식 기술을 활용해 개인에게 특화되고, 개인이 가장 찾고 싶어 하는 정보를 기계가 알아서 찾아주는 기능이다. 실제 세계 최대의 검색 엔진을 보유한 구글은 이와 같은 음성 검색 기능에 큰 기대를 걸고 있다. 특히 방대한 유저 검색 자료와 패턴 분석 데이터를 기반으로 최적화된 검색 결과를 뽑아내는 데 있어서 매우 유리한 위치에 있다. 구글의 이러한 움직임은 세계적인 미래 학자이자 얼마 전 구글에 합류한 레이커즈와일 Ray Kurzweil의 최근 인터뷰에서도 감지된다.

'싱귤레러티 허브'라는 매체와의 인터뷰에서 커즈와일은 "수년 내에 대다수의 구글 검색 쿼리가 실제로 질문을 입력하지 않아도 이에 대한 답을 줄 수 있을 만큼 성장할 것입니다"라며 검색 방식의 변화가 멀지 않았음을 시사했다. 실제 한국전자통신연구원은 최근 자료에서 세계 음성인식 시장 규모를 2005년 11억 달러에서 2013년에는 54억 달러까지 성장할 것으로 전망했다.

구글, 애플 주도로 빠르게 발전

음성 인식 기술 시장이 이렇게 각광 받는 이유는 뭘까?

우선 가장 편리하고 직관적이며, 텍스트로 입력하는 것보다 훨씬 속도가 빠르다. 하지만 음성 인식의 편의성이나 속도에 대한 부분은 오래전부터 인지되어 왔던 부분이다. 오히려 최근 몇 년 사이에 음성 인식에 대한 관심이 부쩍 커지면서 음성인식 기술은 최근 IT 업계 최대 화두로 떠올랐다. "음성 인식 기술이 각광 받는 이유는 크게 두 가지로 정리 할 수 있습니다. 첫째는 구글, 둘째는 애플입니다."

서강대 컴퓨터 공학과에서 음성 인식을 연구 중인 구명완 교수는 말한다. "구글이 음성 인식 검색 기술 발전에 박차를 가하며 모든 안드로이드 스마트폰에 이 기술을 장착했습니다. 애플은 '시리'를 공개하며 전 세계 모든 스마트폰 유저들을 음성 인식 기술이라는 새로운 서비스에 노출시켰죠. 구글, 애플이라는 IT계 거물들이 음성 인식이라는 새로운 기술에 대한 장벽을 제거해 준 셈입니다."

사실 음성 인식 기술 자체는 빠르게 발전했으나, 결과를 해석해서 그것에 필요한 정보를 찾고 또 기계와 이용자 간에 질문이 오가는 식의 실질적인 대화형 시스템은 아직 개발이 더딘 상태이다. 실제 생활에 적용할 수 있는 수준의 기술은 만들어 내지 못했다는 얘기다. 하지만 구글과 애플 두 트렌드 세터들의 적극적인 가담으로 음성 인식에 대한 필요성이 크게 부각되면서 이 기술에 대한 관심이 커지고 있다. 구 교수는 "기계가 사람과 똑같이 말하는 것, 즉 음성 대화 기능(Spoken Dialogue System)을 완성하는 것이 그들의 궁극적인 목표 지점입니
다"라고 설명한다.

국내 기업 음성 인식 활용 제품 급증

음성 인식에 대한 관심이 높아지면서 국내 기업 사이에서도 이를 활용한 제품이 늘고 있다. 삼성이나 LG 등 국내 대표 전자 기업들은 모바일 기기뿐 아니라 스마트 TV, 세탁기, 에어컨, 냉장고 등의 일반 가전 제품에까지 음성 인식 기술을 탑재하고 있다. 현대자동차는 애플의 음성 인식 비서 '시리'를 자사 차량에 통합할 계획이라고 밝혔다. 이를 통해 사용자는 리모컨 없이 일반 가전 제품의 원격 조종이 가능해지며, 운전자는 실시간 차량 정보나 지도 등의 안내를 음성을 통해 받을 수 있게 된다. LG전자 관계자는 "간단한 명령 및 조종(command and control)은 이미 인식 성능 수준이 90% 이상입니다. 본체를 통한 직접 입력으로 명령어를 인식하는 편리성 덕분에 앞으로 원격조종기(remote controller)가 사라지게 되는 혁신적인 미래가 오게 될 것입니다. 제일 편한 의사 소통 수단인 음성을 통한 사용자 체험(user experience)이 머지않은 장래에 실현될 수 있습니다"라고 말했다.

반면 음성 인식에 사용되는 기반 인식 기술은 현재 외국 기업에 많이 기대고 있는 실정이다. 삼성 같은 경우 미국 블링고 제품을 사용하고 있으며 LG 또한 구글의 음성 인식 기술에 기대고 있다. "삼성이나 LG는 내수 시장이 아니라 전 세계 시장을 바라보는 것이기 때문에 전 세계 다양한 언어의 음성 인식 기술을 보유한 해외 업체에 맡기는 경우가 많습니다"라고 구 교수는 설명한다. 하지만 한국어의 미묘한 감정 표현 및 의미를 해석하는 데 있어서는 국내 업체가 해외 업체보다 유리하다는 주장이다. 최근 국내 자체 기술로 연속 음성 인식기를 개발, 활용한 앱을 출시한 순수 국내 벤처 기업 다이알로이드에 관심이 가는 이유다. LG전자, NHN 등에서 20년 이상 음성인식 분야를 연구해 온 음성인식연구원인 이상호씨가 다이알로이드 대표이다. 이 대표는 "전 세계 언어를 프로세스화해야 하는 기업들보다는 우리가 한국어 서비스에 유리합니다"라며 "저도 사실 초기에는 음성인식 기술이 과연 미래에 상용화 될 수 있을지에 대해서 의문이 들었어요. 하지만 2008년 구글, 2010년 네이버가 음성 인식 기술을 공개하고 2011년에 마침내 애플이 음성 인식 기능 '시리'를 공개해 충격을 받았죠"라고 말했다. 이미 100만 단어 이상의 한국어 데이터베이스를 구축한 다이알로이드는 현재 한국말 자연어 인식 부문에서는 선도적인 기술을 보유하고 있으며 추후 음성대화 기능까지 접목된 기술개발에 집중하고 있다. 그는 "5년 내로 음성 인식이 무르익어 기계가 친구 하자고 할 것입니다"라며 음성 인식 기술에 대한 강한 자신감을 내비쳤다.

음성 인식 기술에 대한 부정적인 시각

물론 음성 인식 기술에 대해 긍정적 시각만 있는 것은 아니다. '시리'가 처음 한국어 서비스를 출시했을 때 낮은 인식률로 인해 "귀가 어둡다"고 조롱 받은 사실은 한국어 음성 인식 기술의 현주소를 반영한다. 기본적으로 음성 인식 기술은 패턴 인식 과정을 거친다. 음성이 발화되면 기계가 음성을 분석하여 클라우드 데이터베이스에 있는 수많은 음성 자료와 유사도를 측정한다. 데이터베이스에서 검색에 이용된 음성과 일치하는 결과값을 찾는 즉시 답변이 보내진다. 결국 데이터베이스 축적이 인식률 상승에 필수 조건인 것이다. 특히 대화형 서비스를 구축하려면 상황별 콘텐츠 수집 및 분류, 그리고 다양한 질문을 통해 결과물에 대한 통계 신임도를 높여야 한다. 반면 외국 기업은 한국어 사용자가 다른 언어 사용자에 비해 많지 않아 데이터 베이스 구축에 어려움이 따르며 국내 업체 같은 경우는 데이터 베이스 구축에 필요한 포털 검색 사이트 자체가 없어 꾸준한 데이터 축적에 불리하다.

특히 시끄러운 환경이나 엄숙한 분위기에서 음성 인식 기술을 활용하기에는 어색한 점이 많다. 낮은 인식률과 어색한 활용 방식을 생각하면 그냥 문자로 검색하는게 더 편하다고 말하는 사람도 많다. 결국 생활 패턴 방식의 기본적인 변화 없이는 음성 인식 기술의 보급이 더딜 수밖에 없다. "사용자가 익숙하지도 않고 공적인 장소에서는 더욱 사용이 쉽지 않습니다. 그런 인식의 변화를 이끌고 가는 건 결국 애플하고 구글 같은 대형업체인데, 지금 벌써 어느 정도 진행이 되고 있다고 생각합니다"라고 이상호 대표는 설명한다.

ACR 기술로 통합되는 음성, 영상 인식 기술

음성 인식 기술과 함께 주목을 끄는 또 하나의 검색 기술은 멀티미디어 핑거프린팅 (fingerprinting) 기술이다. 모든 비디오, 오디오, 이미지 파일은 고유의 핑거프린트를 가지고 있다. 각각의 파일들은 핑거프린트 인식 기술을 통해 실시간으로 데이터베이스에 저장된 후 고유의 지문을 통해 검색에 반응한다. 이미 '샤잠(Shazam)' 같은 앱을 통해 많이 보급 된 핑거프린팅 기술은 현재 자동 콘텐츠 인식(ACR)이라는 새로운 검색분야의 핵심 기술로 사용되고 있다. 차세대 검색 기능으로 평가 받는 ACR 기술은 음성과 영상 인식 기술을 양쪽으로 활용하여 사진, 음악, 영화, TV쇼 등 소비자가 사용하는 콘텐츠를 정확하게 인식한다. 콘텐츠 파악이 완료되면 이를 적용한 서비스 및 애플리케이션을 통해 사용자의 스마트 기기(스마트폰, 태블릿 PC, 게임기, 스마트 TV등)에 관련 정보와 뉴스, 소셜 서비스를 제공한다. 예를 들어, 사용자가 스마트 TV를 통해 야구 경기를 시청하고 있다고 하자. ACR기능이 탑재된 앱을 실행하면 사용 중인 스마트 기기가 오디오 핑거프린팅 기술을 통해 자동으로 현재 시청 중인 경기를 파악한다. 그 후 관련 기사와 선수 기록 제공은 물론 함께 그 경기를 시청하고 있는 다른 시청자들과 채팅 방 또는 SNS 기능 등을 통해 실시간 소통이 가능하도록 해 주는 것이다. 또한 야구와 관련 된 앱 그리고 추가 웹사이트를 추천하면서 새로운 정보와 소셜 기능이 복합된 통합
소셜 엔터테인먼트 경험을 체험하게 해 준다.

ACR 기술은 사용자뿐 아니라 스마트 TV 제조사와 방송사에게도 새로운 부가 가치를 제공한다. 스마트 TV에 ACR 기술이 장착 될 경우 제조사는 실시간으로 지금 시청자가 어떤 방송을 시청하는지 알아내서 사용자 각각의 개인 취향을 분석할 수 있는 방대한 자료 수집이 가능해진다. 즉 기존에 일방 소통만을 하던 TV가 이제는 양방향으로 시청자와 직접 소통이 가능해진 것이다. 이로 인해 TV 제조사는 방송국과 연계하여 각 사용자 별로 다른 실시간 설문조사를 바로 실시할 수 있으며, 광고도 개인별로 특화된 광고를 송출할 수 있다. 예를 들면, 똑같은 축구 경기를 봐도 자신이 응원하는 팀에 맞춰진 광고 및 설문 조사를 받아 볼 수 있는 것이다. 만약 시청자가 경기를 시청하면서 태블릿PC를 통해 ACR앱을 실행하고 있다면 개별 사용자별로 다른 광고를 앱에서 볼 수 있다. 물론 실시간 데이터를 기반으로 현재보다 훨씬 정확도가 높은 시청률 조사도 가능하다.

2011년 야후가 인투나우(IntoNow)라는 앱을 통해 처음 공개한 이 기술은 사용자가 시청하는 방송을 오디오 핑거프린팅으로 인식해 모바일 기기에서 관련 정보 및 뉴스를 제공한다. 일명 세컨드 스크린을 통해 추가적인 정보를 받아 봄으로써 이용자는 필요했던 정보들을 굳이 검색어를 입력하여 찾아 볼 필요 없이 자동으로 받아 볼 수 있게 된다. 특히 트위터나 페이스북 또는 채팅방을 연계시켜 동시간에 같은 방송을 시청 중인 다른 이용자들과 실시간 교류가 가능해지며 추가로 방송 제작진에게 직접 메시지를 보내 실시간 피드백도 구현 할 수
있다.

현재 국내에서는 콘텐츠허브라는 기업이 ACR기술의 선두 주자로 손꼽힌다.

이미 2012년에 SBS 와 합작으로 SOTY라는 ACR 기반의 앱을 국내 최초로 출시하며 새로운 TV시청 경험을 선사했다. 엔써즈의 기술력은 세계적으로도 인정 받아 현재 북미 시장에 출시되는 모든 삼성전자 스마트 TV에 엔써즈의 ACR기술을 탑재하고 있다. 이준표 엔써즈 부사장은 "사람들이 어떤 영상을 보는 지에 대해 정확하게 인식한 후 사용자를 중심으로 데이터가 정리되면 그 데이터를 참고로 해서 사용자에게 최적화 된 맞춤형 결과를 보여 줍니다"라고 설명 했다. 그는 "나와 관련된 데이터를 중심으로 수만 가지 정보 중에 내가 제일 관심있어 할 만한 걸 보여줌으로써 더 만족도가 올라 가는 것입니다"라며 "스마트폰이 예상보다 빨리 보급 되면서 스마트 기기를 활용한 쌍방향 콘텐츠의 공급도 1~2년 안에 완벽하게 이뤄질 것입니다"라고 전망했다.

음성, 영상 인식 기술은 현재 진행형이다. 스마트 기기뿐 아니라 외국어 교육 및 금융 보안 시스템 구축도 다방면으로 활용될 수 있다. 또 무인 자동차의 상용화에도 필수적인 기술로 손꼽힌다. 그런 면에서 음성, 영상 인식 기술은 예상보다 훨씬 이른 시일 내에 상용화 될 가능성이 높다. 음성, 영상 인식 기술의 발달은 우리 일상 생활 패턴을 완전히 바꿔 놓을 것이다.
이준표 부사장은 "결국은 인간이 아닌 기계, 즉 가전이나 PC, 모바일 등이 그 사람이 뭘 보고 있는지, 뭘 듣고 있는지, 정확하게 이해하는 세상이 올 것입니다"라며 "영상 인식은 기계에 눈을 달아 주고 음성 인식은 입과 귀를 만들어주는 과정이며 우리가 생각하는 인공지능, 즉 인간에 가까운 기계가 나오는 시발점이라고 생각합니다"라고 말했다.