전체메뉴

검색
팝업창 닫기
이메일보내기

독학으로 바둑 마스터…'알파고 제로' 나왔다

구글, 네이처 통해 논문 발표...기존 알파고 능가

규칙만 알고 기보없이 강화학습..."인간지식 속박안돼"





교과서나 기보를 통한 학습 과정을 거치지 않고 바둑 독학으로 인간은 물론 기존 알파고를 훨씬 능가하는 실력을 갖춘 새로운 인공지능(AI) ‘알파고 제로(0)’가 개발됐다. 이세돌·커제와 같은 당대 최고의 바둑기사를 잇따라 누른 ‘알파고’의 최신 버전으로 빠르게 발전하고 있는 AI 분야에서 새로운 기원을 연 것으로 평가된다.

구글 딥마인드의 창업자인 데미스 허사비스 최고경영자(CEO) 등 이 회사 소속 연구원 17명은 19일(한국시간) 권위 있는 과학 저널인 ‘네이처’에 ‘인간 지식 없이 바둑을 마스터하기(Mastering the game of Go without human knowledge)’라는 논문을 발표하고 알파고의 최신 버전인 ‘알파고 제로’의 개발 과정과 성과를 상세히 소개했다.

구글 딥마인드가 네이처를 통해 소개한 알파고 제로는 AI가 인간의 도움 없이도 어느 수준까지 발달할 수 있는지를 보여줬다는 점에서 과학계는 물론 산업계에서 큰 주목을 받고 있다. 지금까지 AI 시스템은 주로 인간 전문가들의 결정을 따라 하도록 만들어진 ‘지도학습 시스템(supervised learning system)’을 통해 발달했다. 알파고 역시 교재는 물론 수많은 기보를 학습하면서 바둑 능력을 키웠다.

하지만 알파고 제로는 바둑 규칙 외에는 아무런 사전 지식이 없는 상태의 신경망을 바탕으로 바둑판만 놓고 혼자 바둑을 두면서 스스로 바둑의 이치를 터득한 점이 가장 큰 특징이다. 기존의 기보를 보지 않고서도 승률을 높이는 좋은 수가 어떤 것인지 데이터를 스스로 쌓으면서 바둑을 이해하는 수준이 점점 높아지는 식이다. 이 학습 방식은 생물의 뇌에서 실제로 작동하는 ‘강화 학습’과 유사하다. 개에게 먹이를 주면서 ‘앉아’ 등 특정 행동을 반복적으로 훈련시키는 것과 비슷하다.

구글 딥마인드 팀은 인간 전문가의 결정에 대한 데이터를 구하는 데 비용이 많이 들거나, 데이터를 믿을 수 없거나, 그런 데이터가 아예 없는 경우가 많다는 데 주목했다. 특히 신뢰할 만한 데이터가 있더라도 AI 시스템이 인간이 만든 데이터에 의한 지도 아래 훈련을 받을 경우 인간의 한계를 뛰어넘지 못할 수 있다는 점도 과제였다. 이에 따라 인간으로부터 배우지 않고 AI 스스로 수많은 시행착오를 통해 요령을 터득하도록 하는 강화 학습으로 인간을 능가하는 능력을 갖춘 바둑 프로그램을 개발하는 데 성공한 것이다.



실제 지난해 3월 이세돌 9단을 4대1로 이긴 버전(‘알파고 리’로 지칭)과 비교할 때 알파고 제로는 독학 36시간 만에 알파고 리 버전의 실력을 넘어섰다. 또 알파고 제로가 72시간 독학을 한 후 ‘이세돌 9단 대 알파고 리’ 실전 당시와 똑같은 대국 조건(제한시간 2시간씩)에서 알파고 리와 대결한 결과 100전 100승 무패를 기록했다. 알파고 제로가 한 수에 0.4초가 걸리는 ‘초속기’ 바둑으로 490만판을 혼자 두면서 연구한 결과다.

알파고 제로가 40일에 걸쳐 2,900만판을 혼자 둔 후에는 올해 5월 현 세계랭킹 1위 커제 9단을 3대0으로 꺾었던 기존 최강 버전 ‘알파고 마스터’의 실력마저 압도하게 됐다. 알파고 제로는 알파고 마스터에 100전 89승 11패를 거뒀다. 알파고 제로는 바둑의 기본 규칙만 아는 상태로 혼자 바둑을 두는 강화학습에 따른 독학 과정에서 인간이 알고 있는 정석을 스스로 깨달았을 뿐만 아니라 독특한 정석을 개발하기도 했다는 게 구글 딥마인드 측의 설명이다. 이는 AI가 창의적인 생산물을 내놓을 수 있다는 점을 확인시켜줬다는 점에서 상당한 의미가 있다는 게 업계의 분석이다. 교신저자인 데미스 허사비스와 공동 제1저자 3명 중 한 명인 데이비드 실버는 독학으로 바둑을 배운 알파고 제로가 기존 버전들보다 오히려 강한 이유에 대해 “인간 지식의 한계에 더 이상 속박되지 않기 때문”이라고 설명했다. 허사비스는 “우리 프로그램 중 가장 강력한 버전인 알파고 제로는 사람이 만든 데이터를 입력하지 않아도 될 뿐 아니라 컴퓨팅 파워도 덜 든다”며 “불과 2년 만에 알파고가 얼마나 멀리 왔는지를 보면 그저 놀라울 따름”이라고 밝혔다.

실제로 이세돌과 대결했던 알파고가 텐서프로세싱유닛(TPU)을 48개나 쓴 반면 알파고 제로는 4개로 구동되는 특징이 있다. 허사비스는 “AI가 단백질 접힘(각 단백질에 고유한 접힌 구조가 만들어지는 과정)이나 신소재 설계 등 현실의 문제를 해결하는 데 혁신을 이뤄낼 수 있기를 바란다”고 말했다.

/성행경기자 saint@sedaily.com
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >
주소 : 서울특별시 종로구 율곡로 6 트윈트리타워 B동 14~16층 대표전화 : 02) 724-8600
상호 : 서울경제신문사업자번호 : 208-81-10310대표자 : 손동영등록번호 : 서울 가 00224등록일자 : 1988.05.13
인터넷신문 등록번호 : 서울 아04065 등록일자 : 2016.04.26발행일자 : 2016.04.01발행 ·편집인 : 손동영청소년보호책임자 : 신한수
서울경제의 모든 콘텐트는 저작권법의 보호를 받는 바, 무단 전재·복사·배포 등은 법적 제재를 받을 수 있습니다.
Copyright ⓒ Sedaily, All right reserved

서울경제를 팔로우하세요!

서울경제신문

텔레그램 뉴스채널

서울경제 1q60