인공지능을 속이는 방법

보내는 사람
받는 사람	※ 여러명에게 보낼 경우 콤마(,)로 구분하세요.

오늘날의 인공지능은 완벽하지 못하다. 만일 AI가 거짓 정보에 속는다면 개인과 사회, 국가의 안전에 심대한 위협이 초래된다. 어떻게 대처해야할까.

1900년대 초반 독일의 말 조련사이자 수학교사인 빌헬름 폰 오스텐은 자신이 말에게 수학을 가르치는 데 성공했다고 주장했다. 이후 그는 수년간 독일 전역을 돌며 자신의 주장을 입증했다. 자신이 조련하던 ‘클레버 한스(Clever Hans)’라는 말에게 간단한 수식을 풀도록 한 것. 한스는 발을 굴러서 답을 표시했는데, 2+2라는 수식을 보여주면 발을 네 번 굴러 정답을 맞혔다.

하지만 과학자들은 오스텐의 주장을 믿지 않았고, 당대의 유명 심리학자 카를 슈툼프가 이끄는 한스 위원회가 결성돼 철저한 조사가 이뤄졌다. 그 결과, 학자들은 한스가 문제를 푸는 것이 아니라 시각적 신호에 반응하는 것임을 밝혀냈다. 발을 구르기 시작해 정답과 일치하는 순간 오스텐과 관객들이 박수를 보냈는데, 이를 신호로 발 구르기를 멈췄던 것이다. 실제로 연구자들이 박수치는 모습을 보지 못하도록 하자 발 구르기가 계속됐다.

오늘날의 컴퓨터 공학은 한스를 둘러싼 100여년 전의 사기극에서 배울 점이 적지 않다. 이제껏 개발된 대부분의 인공지능(AI)은 정답을 알려줄 만큼 충분한 학습이 이뤄졌을 뿐 학습한 정보를 진정으로 이해한 것은 아니기 때문이다. 이런 AI는 충분히 속일 수 있으며, 속이기도 쉽다.

그럼에도 기계학습 알고리즘은 이미 우리의 삶에 빠르게 파고들고 있으며, 그 영향력도 지속 확대되고 있다. 단적인 예로 이메일의 받은편지함에서 스팸메일이나 피싱 메일 같은 유해성 콘텐츠가 걸러지는 것도 기계학습 알고리즘 덕분이다. 만일 이 알고리즘이 속는다면 인터넷을 지탱하고 있는 근간이 흔들리게 된다. 또한 개인과 사회의 안전, 더 나아가 국가 안보에도 심대한 위협을 초래할 수 있다.

이는 단순한 가능성이 아니다. 미국 펜실베니아 주립대학 연구팀과 구글, 미군 등 여러 기관의 연구자들이 다양한 소모임을 만들어 AI 시스템을 대상으로 벌어질 수 있는 공격을 논의하고, 대응책을 마련하고 있다. 이들이 수행한 연구들에 의하면 이론상 자율주행 자동차의 센서가 감지한 내용을 사실과 다르게 바꾸거나 인간에게는 백색소음으로 들리는 소리로 스마트폰의 음성인식 기능을 활성화시켜 악성코드가 깔린 웹사이트로 접속하게 만들 수 있다고 한다. 심지어 방화벽을 뚫고 네트워크로 바이러스를 침투시키는 것도 불가능하지 않다는 설명이다.

AI 기만전술은 해킹과 다르다. 자율주행 자동차를 예로 들면 차량의 시스템을 해킹해 통제권을 빼앗는 것이 아니라 센서에 일종의 환상을 보여줘 차량 스스로 그릇된 판단을 하도록 만든다. 이 공격에는 ‘대립적 정보(adversarial example)’가 무기로 쓰인다. 인간의 감각기관으로는 정상적으로 보이지만 기계의 센서는 전혀 다른 것으로 인식하는 이미지나 소리, 텍스트를 말한다.

대립적 기계학습 공격에 대해 연구 중인 미국 버클리대학의 박사과정생 알렉스 칸트첼리안은 AI 공격자가 이를 통해 작은 변화라도 일으키면 심층신경망(DNN) 기계학습 알고리즘이 부정확한 결론을 내리게 된다고 강조한다.

“기계학습에 의해 보안과 관련된 중요 결정을 내리는 모든 시스템이 이런 공격에 잠재적으로 취약합니다.”

긍정적인 사실은 AI 연구의 초기단계인 지금부터 몇몇 연구자들이 이 문제를 직시하고, 해법을 찾고 있다는 점이다. 이중 일부는 이에 힘입어 자신들의 기계학습 알고리즘이 효율성과 안전성에서 상대적 우위를 점하고 있다고 주장하기도 한다.

좌측은 변조되지 않은 원본 이미지다. 우측 이미지도 육안으로는 좌측과 똑같아 보이지만 실제로는 변조가 이뤄져 심층신경망(DNN) 기반 소프트웨어의 눈에 타조로 인식된다. 가운데 이미지가 바로 알고리즘을 기만하기 위해 가해진 미묘한 왜곡이다. (출처: 구글-뉴욕대 공동연구팀. 2014년 2월)

오늘날 주류 AI 연구의 대부분은 기계학습 기법의 하나인 DNN과 관련돼 있다. 그리고 계산과 통계를 이용하는 기계학습 기술에 의해 이메일의 스팸 필터링이나 구글의 검색엔진처럼 우리가 매일 알게 모르게 혜택을 누리고 있는 소프트웨어들이 만들어진다.

지난 20여년간 연구자들은 이 기계학습 기술을 ‘신경망(neural network)’이라는 새로운 개념과 접목시켜왔다. 신경망은 쉽게 말해 인간의 뇌를 모방한 소프트웨어 구조다. 인간 뇌가 각 뉴런들이 상호작용하면서 학습 능력을 발휘하듯 신경망도 하나의 컴퓨팅 요소를 수천 개 이상으로 분리해 처리한다. 또한 이렇게 처리된 요소들을 다시 수천여개로 분리된 하부단계로 넘겨주는 것을 기본 개념으로 삼는다.

결국 기계학습과 동일한 방식으로 학습하는 AI 알고리즘은 인간과 유사한 방식의 학습제을 지향한다고 할 수 있다. 예컨대 컴퓨터에게 고양이 사진을 한 장 보여주면 AI 알고리즘은 고양이가 어떻게 생겼는지 알게 된다. 하지만 생김새가 다른 종(種)의 고양이와 서로 다른 각도에서 바라본 고양이를 모두 고양이라고 인식하기 위해서는 수천~수백만 장의 고양이 사진을 보여줘야 한다. 일정부분 고양이를 처음 본 어린아이와 같다고 보면 된다.

많은 대립적 정보 연구를 주도해온 구글 브레인팀의 수석 연구과학자 이안 굿펠로우 박사는 AI 기만 공격이 바로 이 학습 시스템을 공략한다고 설명한다.

“저희는 누가 봐도 명백한 스쿨버스 사진을 보여주고도 그것이 타조의 사진이라 믿도록 만들 수 있습니다.”

그의 연구에 따르면 DNN에 입력되는 이미지를 불과 4%만 변조해도 해당 이미지를 잘못된 카테고리에 분류하도록 만들 확률을 97%까지 높일 수 있다. 심지어 펜실베이니아 주립대학과 구글, 미 육군 연구소(ARL) 등의 공동연구팀은 올 2월 네트워크의 이미지 처리방식을 알지 못했을 때조차 기만 공격 성공률이 84.24%에 달한다는 내용의 논문을 발표하기도 했다.

이처럼 네트워크의 아키텍처를 모르는 상태에서 시도되는 기만 공격을 학계에선 ‘블랙박스(black-box)’ 공격이라 칭하는데, 이 논문은 신경망 기반 딥러닝(deep learning) 기계학습 시스템의 블랙박스 공격을 연구한 최초의 결과물이다.

“블랙박스 공격은 매우 중요한 연구과제예요. 현실 세계에서 실제로 일어날 확률이 가장 높은 AI 기만 공격이기 때문입니다.”

구글 연구팀이 2015년 발표한 논문에 따르면 판다의 사진[좌]에 미세한 빛 왜곡[가운데]을 가했더니 구글의 이미지 인식 알고리즘 ‘구글넷(GoogLeNet)’이 이를 긴팔원숭이로 인식했다. 그것도 99.3%의 신뢰도로 말이다.

기계에 잘못된 정보를 보여주는 행위는 최근 새롭게 대두된 문제가 아니다. 다만 10여년간 대립적 기계학습을 10년간 연구한 미국 버클리대학 더그 타이가 교수는 AI 기만 공격이 단순한 기계학습을 대상으로 태동돼 지금은 한층 복잡한 DNN을 타깃으로 진화하고 있다는 점에 주목해야 한다고 피력한다.

“악의적 공격자들은 이메일 스팸 필터 같은 곳에서 관련기술을 수년간 다듬어 왔습니다.”

타이가 교수는 2006년 기계학습 네트워크에 대한 대립적 정보 공격을 다룬 논문을 발표하면서 이 분야의 연구를 개척했다. 2011년 버클리대학 및 마이크로소프트 연구자들과 함께 후속연구를 진행하기도 했다.

그러던 2014년 AI 분야에 대대적인 인적·물적 투자를 단행하던 구글이 뉴욕대 연구진과 DNN 대상의 기만 공격을 다룬 첫 논문을 내놓았다. 그 가능성을 인지한지 2년만의 일이었다. 이후로도 구글은 DNN 기만 공격의 실제적 가능성을 명확히 하고 싶었고, 이는 2015년 두 번째 논문으로 이어졌다. 특히 2015년 논문에서는 기만 공격에 대응할 수 있는 네트워크 방어 기술과 DNN의 효율성 증진 방법도 다뤄졌다.

보안전문가들은 신뢰할 수 없는 정보를 통칭 ‘비잔틴 데이터’라 부른다. 이들에 의해 딥러닝 분야에도 정착된 이 용어는 ‘비잔틴 장군들의 문제(Byzantine Generals Problem)’라는 컴퓨터 공학계의 사고실험에서 비롯됐다. 전투에 나선 비잔틴 시대의 장군들이 전령을 통해 서로 협력해야 하지만 전령 중 배신자가 있다면 잘못된 정보를 전달할 수도 있기에 전령의 정보를 믿지 못하게 되는 문제를 지칭한다.

굿펠로우 박사는 비잔틴 데이터가 이 같은 배신자 전령이 될 수 있다고 강조한다. DNN 알고리즘은 무작위 데이터의 정체를 규명할 뿐 비잔틴 데이터를 처리하지는 못하기 때문이다. 그는 이 문제를 해결하려면 기만 공격의 메커니즘부터 이해해야 한다며 신경망을 점묘화에 비유했다.

“점묘화의 각 점을 DNN이 처리해야 하는 이미지의 픽셀 하나라고 생각해보세요. 일반적인 DNN은 이 점들을 선으로 이어서 전체 형태를 파악하려 합니다. 때문에 선의 형상에 의해 DNN의 판단이 좌우됩니다. 그런데 누군가 주요 지점에 위치한 일부 점들의 위치를 바꿔놓는다면 어떻게 될까요. 전체적인 선의 형태가 달라지면서 DNN이 사실과 다른 결론에 도달하게 됩니다. 게다가 바뀐 선의 형태가 기존에 학습했던 다른 이미지와 흡사하다면 실수로 이어질 확률은 급격히 높아집니다.”

구글-뉴욕대 연구팀이 2014년 논문에서 스쿨버스를 타조로 오인토록 DNN을 현혹한 것도 이 방법을 사용했다. 스쿨버스의 화소들을 DNN이 알고 있던 타조 사진의 특성을 모방해 변경한 것. 워낙 미세한 변화여서 사람의 눈으로는 차이를 알아챌 수 없지만 DNN 알고리즘이 이미지를 처리해 단순화시키면 타조 사진에서 보이는 데이터 포인트들이 나타나면서 타조로 분류하는 것이 타당하다는 판단을 내리게 된다.

딥러닝 시스템 블랙박스 공격 연구의 경우 연구자들은 먼저 테스트를 거쳐 알고리즘이 특정 물체를 인식하는 방식을 밝혀냈다. 이미지 분류기(image classifier)에 가짜 입력 값을 넣어 어떤 결정을 내리는지 관찰한 것이다. 이를 통해 자율주행 자동차에 쓰일 가능성이 높은 이미지 인식시스템을 공격, 정지 표지판을 양보 표지판으로 해석하게 하는 알고리즘을 역설계했다.

또 이렇게 딥러닝 시스템을 기만할 기본 원리를 파악한 뒤에는 이미지 인식시스템이 보는 모든 것을 연구팀이 원하는 것으로 바꿀 수 있었다. 연구팀은 이런 종류의 기만 공격은 카메라를 우회해 이미지 시스템에 직접 가할 수도, 현실 세계의 도로표지판을 조작해 이뤄질 수도 있다고 전했다.

단지 미국 컬럼비아대학 데이터과학연구소의 앨리슨 비숍 박사는 자율주행 자동차에 국한할 경우 이런 방식의 기만 공격은 상당히 비현실적이라 말한다. 공격자들이 카메라의 우회에 성공했다면 자신이 원하는 어떤 정보도 입력 가능하다는 이유에서다.

“시스템에 정지 신호판이 있다는 정보를 입력하면 됩니다. 굳이 어렵게 일을 처리할 필요가 없죠.”

AI 기만 공격 연구는 그동안 이미지의 왜곡에 초점이 맞춰져 있었다.

하지만 얼마 전 버클리대학과 조지타운대학 연구팀에 의해 이미지가 아닌 소리로도 공격이 가능하다는 게 입증됐다.

구체적으로 두 연구팀은 소리, 정확히 말해 인간의 귀로는 의미를 알 수 없는 소리로 애플 시리나 구글 나우, 아마존 알렉사 등 AI 기술이 적용된 음성인식 개인비서에게 명령을 하달할 수 있는 알고리즘을 개발했다. 이 소리는 인간에겐 백색소음으로 들리기 때문에 주인이 버젓이 옆에 있는 상태에서도 음성인식 기능을 활성화시켜 기기가 특정 명령을 수행토록 할 수 있다.

캘리포니아대학 버클리캠퍼스의 학생으로 비잔틴 음향을 연구 중인 니콜라스 칼리니의 실험 결과, 시리와 나우, 그리고 오픈소스 기반 음성인식 시스템의 활성화 성공률이 공히 90% 이상으로 확인됐다.

“이 소리는 백색소음과 인간의 음성을 혼합한 것입니다. 인간의 귀에는 명령어가 아닌 SF 영화 속 외계인들의 통신음처럼 들리죠.”

그가 백색소음에 담았던 명령은 이 소음을 재생하는 사이트에 접속하라는 것이었다. 그러면 공격 받은 휴대폰의 스피커에서 다시 백색소음이 송출돼 주변의 다른 휴대폰에도 동일한 명령을 전달하게 된다.

“백색소음이라도 귀에 거슬리지 않느냐고요? 평범한 음악에 백색소음을 숨겨 공공연히 다른 사람의 휴대폰을 공격할 수도 있습니다. 공격자가 해당 사이트에 악성코드를 심어 놓는다면 아무도 모르게 무수한 휴대폰을 좀비화시킬 수도 있다는 뜻입니다.”

어떻게 이 같은 공격이 가능한 걸까. AI들은 입력되는 거의 모든 데이터 내에 자신이 읽을 수 있는 정보나 중요한 정보가 있다고 훈련 받기 때문이다.

굿펠로우 박사는 이 점을 공략해 백색소음과 무작위적으로 생성한 흑백 이미지를 사용, DNN이 실제로는 존재하지 않는 이미지가 있다고 믿게끔 만드는데 성공하기도 했다.

“신경망은 정보를 진정으로 이해하는 것이 아니라 올바른 정보를 발견했을 때 그것이 올바르다고 인식하는 법을 학습하는 것일 뿐입니다. 기본 지식이 없는 만큼 알고리즘이 결과를 찾아가는 과정에 개입, 틀린 답에 도달하도록 하기가 쉽습니다. 수학을 푼다고 알려졌던 클레버 한스와 크게 다를 바가 없어요.”

그는 AI가 무엇이 옳은지 정확히 이해하려면 무엇이 틀린지도 반드시 이해해야 한다고 말한다. 이 가설의 검증을 위해 이미지 분류 네트워크에 원본 이미지와 조작된 이미지의 차이를 교육시켰다. 그러자 기만 공격 성공률이 90% 이상 낮아진 것은 물론 원래의 임무 수행 능력도 눈에 띠게 향상됐다. 이 성과에 주목한 버클리대학과 조지타운대학 연구팀이 굿펠로우 박사팀과 동일한 방식으로 언어 인식 시스템을 재교육했더니 백색소음 기만 공격의 성공률 역시 90% 이상 저하됐다.

미군은 AI 기만 공격을 미래 국가안보에 대한 심각한 위협으로 인식하미 고 있다. 전 세계 어떤 국가보다 앞서서 군 장비와 시스템의 무인화, 자율화, AI화를 추진 중에 있는 탓이다. 그만큼 이 분야의 연구에 큰 관심을 갖고 있으며, 최근에만 블랙박스 공격을 포함한 2건의 연구에 자금을 지원했다.

혹여 미군이 방어가 아닌 적대 국가를 공격할 목적으로 기만 공격 기술을 개발하려는 것은 아닐까. 불가능한 생각은 아니다. 다만 이 기술이 군에 보급될 정도로 고도화되려면 앞으로 10여년의 시간이 더 필요하다는 게 전문가들의 일반적인 시각이다.

ARL의 아난트람 스와미 박사도 이에 동의한다. 그는 최근 발표된 여러 건의 AI 기만 공격 논문에 참여했는데, 미 육군의 최대 관심사는 악의적 기만 데이터를 탐지해 차단하는 것에 맞춰져 있다고 밝혔다. 그리고는 오히려 대학이나 오픈 소스 프로젝트를 통해 설치된 공공 센서들이 기만 공격자의 접속이 가능한 일련의 데이터를 송출하고 있음을 지목했다.

“적들이 우리를 기만해 바보로 만드는 것이 생각보다 쉬울지도 모릅니다.”

스와미 박사는 미군이 드론, 로봇, 전차, 트럭 등의 자율주행에 대대적 투자를 단행하고 있어 이에 대한 기만 공격 연구도 곧 활성화될 것으로 내다보고 있다. 그리고 이 연구가 여타 분야로 확산돼 실효성 높은 방어 기법의 개발로 이어질 것이라 생각한다. 물론 AI 성능을 고도화해 적용률을 높여나가고 있는 기업들의 입장에서 보면 그날까지 넋 놓고 기다릴 수만은 없다. 자칫 보안시스템이 무너져 기만 공격에 당할 경우 돌이킬 수 없는 타격을 입을 수도 있으니 말이다. 때문에 굿펠로우 박사팀의 재교육 기법에 많은 관심을 갖고 있다.

이와 관련 버클리대학의 칸트첼리안은 굿펠로우 박사팀의 기만 공격 방어 기술 연구성과에도 불구하고 공격 가능성은 여전히 남아 있다고 주장한다.

“우리가 AI에 대한 모든 것을 알기에는 함께한 시간이 너무 짧습니다. 그런데 지금도 많은 기업들이 면밀한 검토의 시간을 갖지 않은 채 방대한 정보를 AI의 손에 넘겨주고 있어요. 다른 모든 것을 차치하고 컴퓨터 보안에만 국한해도 공격자는 방어자보다 언제나 한발 앞서 있습니다. 새로운 바이러스가 나오면 그에 대응하도록 백신이 업그레이드되는 것과 같아요. 재교육을 통해 기만 공격 문제를 해결했다고 여기는 것은 다소 위험한 발상입니다.”

============================
｜주석｜
DNN Deep Neural Network
사고 실험 (thought experiment) 실험에 필요한 조건과 장치를 단순하게 가정한 뒤 그 상황에서 일어날 현상들을 이론적으로 예측하는 연구.

서울경제 파퓰러사이언스 편집부/BY DAVE GERSHGORN