검색 본문 바로가기 회사정보 바로가기
> 산업 >

"바둑 완전히 평정했다"…완전체 '알파고 제로' 등장

구글 딥마인드, 네이처에 '알파고 제로' 논문 게재
인간 개입 없이 스스로 '강화학습'으로 실력 키워

(서울=뉴스1) 주성호 기자 | 2017-10-19 12:20 송고
프로 바둑기사 이세돌 9단(왼쪽)과 인공지능(AI) 바둑 프로그램 '알파고'를 개발한 구글 딥마인드의 데미스 하사비스 최고경영자(CEO)가 악수를 나누는 모습/뉴스1 © News1
프로 바둑기사 이세돌 9단(왼쪽)과 인공지능(AI) 바둑 프로그램 '알파고'를 개발한 구글 딥마인드의 데미스 하사비스 최고경영자(CEO)가 악수를 나누는 모습/뉴스1 © News1


인간과의 바둑 대결에서 '인간계 최강'으로 꼽히는 이세돌 9단과 커제 9단을 잇따라 연파한 구글 딥마인드의 인공지능(AI) 바둑 프로그램 알파고의 새 버전 '알파고 제로(Zero)'가 공개됐다.
알파고 제로는 그간 3차례 공개됐던 이전 버전의 알파고와 달리 인간의 '학습지도' 없이 스스로 수천만번에 달하는 바둑을 두면서 기보를 학습하고 실력을 키우는 자가 강화학습을 통해 업그레이드됐다.

19일 구글 딥마인드는 이같은 내용으로 '인간 지식 없이 바둑 마스터하기'(Mastering the game of Go without human knowledge)라는 논문을 세계 최고권위 학술지 '네이처'에 발표했다.

논문을 통해 공개된 알파고 제로의 가장 큰 특징은 '자가 학습' 능력이다. 처음 알고리즘 설계 때 입력된 바둑의 기초규칙 외에는 인간이 전혀 개입되지 않고도 뛰어난 바둑 기술을 습득한 것이다.

딥마인드는 논문에서 "알파고 제로의 가장 큰 특징이면서 이전 버전과 달라진 점은 강화학습 기반의 셀프바둑으로 수련했으며 인간의 데이터를 전혀 사용하지 않았다는 점"이라고 강조했다.
지금껏 공개된 알파고는 총 3종류다. 2015년 유럽 챔피언 판후이를 꺾은 '알파고 판(Fan)'이 최초 버전이며 지난해 3월 인간계 대표 이세돌 9단을 꺾은 '알파고 리(Lee)'가 두번째 버전이다. 이어 올 5월에 세계 랭킹 1위 중국의 커제 9단을 꺾은 것이 '알파고 마스터(Master)'다.

구글 딥마인드가 개발한 인공지능(AI) 바둑 프로그램 알파고에 사용된 칩셋의 현황. 2016년 버전 알파고 리에 48개나 쓰였던 칩셋이 알파고 제로에서는 4개로 줄었다. (제공=구글 딥마인드) © News1
구글 딥마인드가 개발한 인공지능(AI) 바둑 프로그램 알파고에 사용된 칩셋의 현황. 2016년 버전 알파고 리에 48개나 쓰였던 칩셋이 알파고 제로에서는 4개로 줄었다. (제공=구글 딥마인드) © News1


알파고 판, 알파고 리의 경우 '정책망'과 '가치망'이라는 2개의 인공지능 신경망을 활용했다. 정책망은 돌을 놓을 위치를 선택하는 역할을 담당한다. 가치망은 해당 수를 뒀을 때 이길 수 있는 확률을 분석하면서 최적의 방안을 도출해낸다.

그러나 새롭게 공개된 알파고 제로는 단일 신경망으로 작동된다. 그만큼 알고리즘이 단순해졌지만 더욱 빠르고 강력한 의사결정이 가능해진 것이다. 실제 효율성이 높아지면서 알파고 리에 인공지능칩셋인 텐서플로세싱유닝(TPU)가 48개가 탑재됐지만 알파고 제로에서는 4개로 줄어들었다.

알고리즘 강화와 가치판단의 속도가 빨라지면서 알파고 제로의 실력은 무시무시한 속도로 성장했다. 딥마인드에 따르면 알파고 제로는 프로그램 시작 19시간만에 바둑의 고난위도 문제인 '사활'도 배웠다. 인간 기사를 뛰어넘는 '초인간 레벨'에 등극하는데 필요한 시간은 불과 70시간이었다.

딥마인드는 알파고 제로는 불과 40일만에 세계 최강 바둑기사 레벨에 등극했다고 강조했다. 딥마인드에 따르면 알파고 제로가 이세돌 9단을 4대1로 꺾었던 알파고 리를 뛰어넘는데 걸린 시간은 3일이다. 이때 알파고 제로가 알파고 리와 기록한 전적은 100전 100승이다.

구글 딥마인드가 개발한 인공지능(AI) 바둑 프로그램 알파고의 '엘로 평점' 수준. 점수가 높을수록 실력이 뛰어나다.(제공= 구글 딥마인드) © News1
구글 딥마인드가 개발한 인공지능(AI) 바둑 프로그램 알파고의 '엘로 평점' 수준. 점수가 높을수록 실력이 뛰어나다.(제공= 구글 딥마인드) © News1


이어 21일만에 커제 9단을 3대0으로 완파한 알파고 마스터까지 꺾었다. 알파고 제로는 알파고 마스터와 100번 붙어 89승 11패를 기록했다. 딥마인드는 "알파고 제로가 다른 모든 알파고 버전 등을 능가하고 세계 최고 선수가 되는 데 걸린 시간은 40일"이라고 밝혔다. 이 과정에서 알파고는 그간 이세돌, 커제 등과 맞붙으며 보여줬던 수가 아닌 바둑계에 처음 나온 이른바 '비관습적인 전략'까지도 선보였다.

딥마인드는 "알파고 제로는 바둑 인간 챔피언을 세계 최초로 꺾은 AI 알파고의 가장 최신 버전이면서 바둑 역사상 가장 강력하고 우수한 선수"라고 평가했다.

체스, 바둑 등 2인 게임에서 우열 판정을 통해 실력 측정 수단으로 쓰이는 '엘로(Elo) 평점' 결과에서도 알파고 제로는 5185점을 기록해 △알파고 마스터 4858점 △알파고 리 3739점 △알파고 판 3144점을 모두 넘었다.

이처럼 알파고 제로가 극강의 실력으로 성장할 수 있었던 비결에 대해 딥마인드는 "인간의 지식의 한계에 묶여있지 않았기 때문"이라며 "백지 상태에서 세계 최고 실력을 갖춘 알파고 스스로가 자가학습을 거쳤기에 가능했다"고 설명했다.

끝으로 딥마인드는 "알파고 제로를 통해 인공지능이 인간의 독창성을 배가하고 나아가 인류가 마주한 난제를 해결하는 우리의 임무를 도와줄 수 있을 것이라는 자신감을 갖게 됐다"고 밝혔다.


sho218@

이런 일&저런 일

    더보기