기보 없이 바둑 깨우친 '알파고 제로'…알파고에 100전100승

인공지능 바둑 프로그램 '알파고'를 뛰어넘는 새로운 버전의 '알파고 제로'가 등장했다.

'알파고 제로'라는 이름의 이 AI는 인간의 도움을 받지 않고 철저히 독학으로 이 같은 경지에 올라 과학계의 비상한 관심을 받고 있다.

데미스 하사비스 딥마인드 창업자 겸 최고경영자를 포함해 이 회사 연구원 17명은 알파고 제로 알고리즘과 그동안 테스트 결과 등을 담은 '인간 지식 없이 바둑을 마스터하기(Mastering the game of Go without human knowledge)' 제목의 논문을 19일(한국시각) 발표했다.

논문을 보면, 알파고 제로는 바둑 규칙 외에는 아무런 사전 지식이 없는 상태의 신경망에서 출발한 게 기존 알파고 프로그램과 다르다. 바둑판을 놓고 '셀프 바둑'을 두면서 바둑의 이치를 터득했다.

스스로 승률을 높이는 수가 어떤 것인지 깨닫고 관련 데이터를 축적하면서 실력을 키웠다.

구글 딥마인드 팀은 인간 전문가의 결정에 대한 데이터를 구하는 데 비용이 많이 들거나, 데이터를 믿을 수 없거나, 그런 데이터가 아예 없는 경우가 많다는 데 주목했다. 특히 신뢰할 만한 데이터가 있더라도 AI 시스템이 인간이 만든 데이터에 의한 지도 아래 훈련을 받을 경우 인간의 한계를 뛰어넘지 못할 수 있다는 점도 과제였다. 이에 따라 인간으로부터 배우지 않고 AI 스스로 수많은 시행착오를 통해 요령을 터득하도록 하는 강화 학습으로 인간을 능가하는 능력을 갖춘 바둑 프로그램을 개발하는 데 성공한 것이다.

실제 지난해 3월 이세돌 9단을 4대1로 이긴 버전('알파고 리'로 지칭)과 비교할 때 알파고 제로는 독학 36시간 만에 알파고 리 버전의 실력을 넘어섰다. 또 알파고 제로가 72시간 독학을 한 후 '이세돌 9단 대 알파고 리' 실전 당시와 똑같은 대국 조건(제한시간 2시간씩)에서 알파고 리와 대결한 결과 100전 100승 무패를 기록했다. 알파고 제로가 한 수에 0.4초가 걸리는 '초속기' 바둑으로 490만판을 혼자 두면서 연구한 결과다.

알파고 제로가 40일에 걸쳐 2,900만판을 혼자 둔 후에는 올해 5월 현 세계랭킹 1위 커제 9단을 3대0으로 꺾었던 기존 최강 버전 '알파고 마스터'의 실력마저 압도하게 됐다. 알파고 제로는 알파고 마스터에 100전 89승 11패를 거뒀다. 알파고 제로는 바둑의 기본 규칙만 아는 상태로 혼자 바둑을 두는 강화학습에 따른 독학 과정에서 인간이 알고 있는 정석을 스스로 깨달았을 뿐만 아니라 독특한 정석을 개발하기도 했다는 게 구글 딥마인드 측의 설명이다. 이는 AI가 창의적인 생산물을 내놓을 수 있다는 점을 확인시켜줬다는 점에서 상당한 의미가 있다는 게 업계의 분석이다. <스포츠조선닷컴>