전체메뉴

검색
팝업창 닫기
이메일보내기

'못 믿을' 여론조사 대신 구글·네이버 빅데이터?

洪·安 "빅데이터가 진정한 표심 보여줘"

검색량 빅데이터, '관심→호감→지지' 중

'관심' 단계만 포착...빅데이터만으론 표심파악 힘들어

전문가 "여론조사 불신 해소 위해 응답률부터 높여야"

“여론조사가 잘 안 맞는 것 같아요. 제 친구들도 그렇고 어른들도 믿지를 못하더라고요. ‘A후보가 이 정도로 높나?’ 하고.” (김유진·29·광주)

“여론조사 결과가 진짜이긴 한 건가? 아무래도 이상합디다.” (이성원·60대·부산)

“야바위 여론조사보다 거짓 없는 구글트렌드를 믿는다.” (홍준표 자유한국당 대선후보)

2016년 총선을 거치며 곤두박질쳤던 여론조사의 신뢰도는 여전히 땅바닥이다. 많은 유권자들이 연일 쏟아져 나온 각종 여론조사 결과에 ‘내 주변 분위기와 다르다’며 고개를 갸우뚱했고, 각 대선후보 캠프는 저마다 지지층이 과소 또는 과잉 표집됐다고 반발한다.

‘못 믿을 여론조사’ 대신 온라인 포털사이트 검색량 등 ‘빅데이터 지수’가 진짜 민심을 더 잘 보여준다는 주장도 그래서 나온다. 구글 트렌드는 기존 여론조사가 포착하지 못한 도널드 트럼프 미국 대통령의 당선과 영국의 유럽연합(EU) 탈퇴 결정을 정확히 예측해 화제가 됐다. 대선을 앞두고 우리나라에서도 ‘민심의 진정한 바로미터’로 주목을 받고 있다. 하지만 구글트렌드나 네이버 검색량 등 현재의 ‘빅데이터 지수’가 정말 여론조사에는 잡히지 않는 유권자들의 진정한 표심을 보여주고 있는 걸까?

◇安·洪 ‘온라인 검색량’ 빅데이터 내세워 “희망 있다”

“이제 안철수 국민의당 대선후보는 국민적 관심 밖”이라고 주장하는 홍준표 자유한국당 대선후보는 구글트렌드 분석 결과를 근거로 연일 자신의 인기를 강조하고 있다. “‘야바위’ 여론조사는 안 믿는다”는 말도 빼놓지 않는다. 구글 트렌드는 포털사이트 구글에서 일정 기간 동안 특정 단어가 얼마나 많이 검색됐는지를 보여주는 지표다.

홍 후보는 지난 2일 자신의 페이스북에 “조작을 일삼는 여론조사보다 미국 대선을 정확히 맞췄던 구글트렌드는 오늘(2일) 아침 기준으로 제가 43, 문재인 31, 안철수 23이다. 이제 승세로 돌아섰다”고 적었다. 5일 아침에도 홍 후보는 페이스북을 통해 “지난 1일부터 현재까지 구글트렌드는 홍 85, 문 86, 안 50으로 (제가) 문과 박빙으로 붙어있다”며 “제가 이길 수 있을 것으로 확신한다”고 했다.

최근 몇몇 여론조사에서 홍 후보에게 2위를 내줬지만 “바닥 민심은 다르다”고 주장하는 안 후보 측의 무기도 빅데이터 지수다. 안 후보 측 김영환 미디어본부장은 4일 여의도 당사에서 브리핑을 열고 “문재인 후보와 안철수 후보 간의 관심도 차이는 약 6%포인트 정도로 본다”며 “문 후보와 안 후보 간의 실제 지지도 격차는 여론조사 결과와는 상당히 큰 차이가 있다”고 주장했다. 홍 후보가 안 후보를 누르고 지지율 2위를 차지하는 ‘실버 크로스’ 가능성을 부인하면서 “여전히 문 후보와 안 후보의 양강구도가 확고하게 구축돼 있다”고도 강조했다.

이날 김 본부장이 내세운 주장의 근거는 4월 한 달간의 네이버 검색량을 분석한 ‘빅데이터 지수’다. 국민의당은 4월 1일부터 30일까지 네이버에서 이뤄진 각 대선후보에 대한 검색 현황을 분석한 결과, 문재인 더불어민주당 대선후보가 31.5%로 관심도가 가장 높았고, 안 후보가 26.9%로 2위를 차지했다고 밝혔다. 이어 홍 후보가 17.9%, 유승민 바른정당 대선후보가 13.8%, 심상정 정의당 후보가 9.9% 순이었다. 4월 5일부터 5월 3일까지 포털사이트 구글에서의 후보별 검색량 추세를 보여주는 구글트렌드 분석에서도 한달치 평균 검색량은 문재인(62)→안철수(60)→홍준표(41)→심상정(18)=유승민(18) 순으로 많았다.

4월 1일부터 30일까지 4월 한 달 간 네이버에서 이뤄진 후보별 검색량을 상대적 수치로 나타낸 날짜별 검색 추세 그래프. 몇몇 분기점을 전후해 단기적인 순위변동이 있었지만, 전반적으로 문재인(파란색)→안철수(녹색)→홍준표(빨간색)→유승민(하늘색)→심상정(노란색) 순위가 유지됐다. /데이터출처는 네이버, 그래프는 국민의당 제공.




국민의당은 네이버에서의 날짜별 검색추세를 봐도 ‘문-안 양강구도’가 확고하다고 주장한다. 날짜별 검색추세는 한 달 동안 가장 검색횟수가 많았던 후보자의 특정 시점 검색횟수를 100으로 고정한 뒤, 이를 기준으로 다른 후보들의 검색횟수를 상대적으로 수치화한 것이다. 분석 결과 문 후보가 대체로 1위를 수성한 한편, 안 후보는 문 후보를 한 차례 앞지르거나 비슷한 수준을 유지하면서 줄곧 2위를 지켰다고 국민의당은 밝혔다.

구글트렌드에서는 JTBC 토론회가 있었던 4월 25일을 기점으로 홍 후보가 줄곧 안 후보보다 관심도에서 우위를 보이고 있는 것과 다른 결과다. 김 본부장은 이에 대해 “우리나라에서는 구글보다 네이버 검색량이 더 많다”며 네이버 빅데이터 지수가 적어도 우리나라에서는 더 신빙성이 있다고 주장했다.

4월 5일부터 5월 3일까지 30일간 포털사이트 구글에서의 후보별 검색량 추세를 나타낸 구글트렌드 그래프. 네이버 검색량 추이와 달리, 구글 검색량 추이에서는 JTBC 토론회가 있었던 4월 25일 기점으로 홍 후보에 대한 관심도가 안 후보에 대한 관심도를 앞서는 것으로 나타났다. /구글트렌드 웹사이트 캡처.


◇검색량이 곧 지지율? ‘개인적 지지’ 아닌 ‘집단적 관심’일 뿐

그렇다면 이 같은 온라인 포털사이트를 통한 검색량은 정말로 숨겨진 표심을 드러내는 수치일까. 결론부터 말하면 ‘No’다. 전문가들은 집단의 관심도에 불과한 빅데이터지수는 개인의 지지나 투표의향으로 직결된다고 볼 수 없다고 설명한다.



국민의당 부대변인이기도 한 박태순 사회갈등연구소 대표는 “검색 엔진을 통해 나타나는 관심도는 후보에 대한 지지와 밀접한 관계가 있다”고 주장한다. 응답자가 수동적·선택적으로 답하는 여론조사와 달리, 유권자가 검색을 통해 능동적으로 후보에 대한 기사나 소식을 찾아 읽는 행위는 곧 그 후보를 지지하는 행위로 연결된다는 것이다.

그러나 신율 명지대 정치외교학과 교수는 “관심과 지지는 다르다”고 반박한다. 그는 “개인이 일반적으로 한 후보를 지지하고 투표장에 가서 그에게 투표를 하기까지는 3단계 관심→호감→지지를 거쳐야 한다”고 설명하면서 “구글트렌드나 네이버 미디어랩 등 빅데이터 지수는 후보에 대한 관심(1단계)까진 잡아내지만 그 다음 단계들은 잡아내지 못한다”고 지적했다.

한정훈 서울대 국제대학원 교수도 “구글트렌드에서 나타나는 한 후보에 대한 관심만으로 개인의 투표 의향까지 알 수 없다”고 경계했다. 사람들의 관심을 끌 만한 흥미로운 키워드가 뜨면 사람들이 이를 검색하기 위해 몰려들었다가 빠져나가고, 다음날 또 다른 사람들이 새로운 키워드를 검색하는 상황에서 특정 후보에 대한 특정 개인의 지지와 투표 의향을 잡아낼 수는 없다는 것이다.

오는 7일 대선 결선투표를 앞둔 프랑스에서도 두 대선후보를 두고 여론조사상 지지도와 빅데이터상 관심도 간에 크게 괴리가 있다는 사실 또한 이같은 지적을 뒷받침한다. 과감한 언행과 유럽연합·나토 탈퇴 등 극단적 정책이 특징인 극우정당 국민전선의 마린 르펜 후보는 구글 검색량에서 지난 3일까지도 중도 신당 앙마르슈의 에마뉘엘 마크롱 후보에게 줄곧 우위를 보였지만, 전통적 여론조사에서는 정반대로 마크롱 후보가 현재 20%포인트 가량의 격차를 두고 르펜 후보를 따돌리고 있다.

4월 5일부터 5월 3일까지 30일간 포털사이트 구글에서 프랑스 대선후보인 에마뉘엘 마크롱 ‘앙마르슈’(파란색) 후보와 마린 르펜(빨간색) 국민전선 후보의 검색량 추세를 나타낸 그래프. 이에 따르면 르펜 후보가 구글 검색량에서 마크롱 후보보다 줄곧 우위를 보였지만, 결선투표를 코앞에 둔 프랑스에서는 극우 집권 저지를 위해 마크롱 후보에게 투표해야 한다는 분위기가 우세하다. /구글트렌드 웹사이트 캡처.


전문가들은 빅데이터 분석 기법이 표심을 정확히 반영할 만큼 아직 다양하거나 이론화되지 못했다는 점도 지적하고 있다. 신 교수는 “현재 빅데이터 분석은 검색량을 기준으로 하는데, 예컨대 홍 후보는 ‘막말’을 많이 하다 보니 검색량이 많을 수밖에 없다”며 단순 검색에는 부정 평가와 긍정 평가가 혼재하기 때문에 검색한다는 사실만으로 해당 후보를 지지한다고 볼 수는 없다”고 말했다. 무엇을 기준으로 분석하는지 세부적으로 따져봐야 한다는 것이다. 한 교수도 “현재 구글트렌드에 잡히는 검색빈도가 왜, 어떻게 반영되는지에 대한 이론이 있어야 정확한 분석이 가능한데, 지금은 그런 이론적 틀이 없다”며 확대해석을 경계했다.

◇문제는 여론조사 불신감

이 같은 문제점에도 불구하고 온라인 검색량을 지수화한 ‘빅데이터’ 분석에 사람들의 눈이 쏠리는 건 여론조사에 대한 근본적 불신 때문이다. 유권자들은 지역과 나이, 지지후보를 불문하고 “여론조사 결과를 못 믿겠다”고 볼멘소리를 내고 있다. 특히 지난해 20대 총선 당시 부실 여론조사로 인한 각종 문제점이 드러나면서 ‘여론조사 무용론’까지 불거진 후 치러지는 첫 전국 선거라는 점에서 불신의 눈초리는 더하다.

중앙선거관리위원회는 지난 총선의 논란을 의식해 이번 대선을 앞두고는 안심번호를 이용한 휴대전화 조사 확대, 여론조사 업체 및 조사원의 자격 조건 강화, 여론조사 설문항목 사전신고 의무화 등 여론조사 관리에 힘을 기울였다. 그럼에도 “여론조사 결과를 못 믿겠다”는 말은 여전히 나온다. 이와 관련해 전문가들은 최소한의 대안으로 ‘낮은 응답률’부터 개선해야 한다고 지적한다.

김영원 숙명여대 통계학과 교수는 지난 2월 자신의 페이스북을 통해 “한국의 응답률 계산은 접촉실패 사례 수를 분모에 넣지 않아 응답률이 (실제보다) 높다”며 “미국의 응답률 10%와 우리나라 응답률 10%는 다르다”고 쓴소리를 한 바 있다. 신 교수도 서울경제신문과의 통화에서 “최소한 응답률 10%를 넘지 않는 여론조사 결과는 발표를 하지 못하게 해야 한다”고 목소리를 높였다.

여론조사 결과를 바라보는 언론과 유권자의 책임도 지적됐다. 한 교수는 “충성 지지층이 과잉 반영되는 여론조사의 태생적인 한계를 고려해, 언론과 수용자가 여론조사 결과를 상당히 조심해서 해석해야 한다“고 조언했다.

/빈난새기자 binthere@sedaily.com
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >
주소 : 서울특별시 종로구 율곡로 6 트윈트리타워 B동 14~16층 대표전화 : 02) 724-8600
상호 : 서울경제신문사업자번호 : 208-81-10310대표자 : 손동영등록번호 : 서울 가 00224등록일자 : 1988.05.13
인터넷신문 등록번호 : 서울 아04065 등록일자 : 2016.04.26발행일자 : 2016.04.01발행 ·편집인 : 손동영청소년보호책임자 : 신한수
서울경제의 모든 콘텐트는 저작권법의 보호를 받는 바, 무단 전재·복사·배포 등은 법적 제재를 받을 수 있습니다.
Copyright ⓒ Sedaily, All right reserved

서울경제를 팔로우하세요!

서울경제신문

텔레그램 뉴스채널

서울경제 1q60