アルファ碁が進化した最新囲碁ソフトが誕生対局データなしに独学で最強に

囲碁のルールだけを教えられた後は棋士の対局データなしに独学で「勝つ手」を学ぶ最強の囲碁ソフト「アルファ碁ゼロ」を開発した、と米グーグル傘下の英国ベンチャー企業ディープマインド社が発表した。3日間で「自己対局」を490万回繰り返して世界トップクラスの棋士を破った旧作ソフト「アルファ碁」に100戦全勝した。開発に関する論文は19日付の英科学誌ネイチャーに掲載された。同社によると、「アルファ碁ゼロ」は人工知能(AI)の新しい設計思想により誕生したが、囲碁以外の広い分野で応用できる可能性があるという。

画像「アルファ碁ゼロ」を開発したディープマインド社がホームページに掲載したイメージ画像 (提供・ディープマインド社)

旧作囲碁ソフトの「アルファ碁」には、コンピューターが人間の神経細胞を模した多層構造のネットワークを使って自動的に学習する「ディープラーニング(深層学習)」と呼ばれる技術が使われた。またコンピュター自身が「試行錯誤」を繰り返しながら独学する「強化学習」の手法が取り入れられていた。昨年3月に世界トップクラスの韓国人プロ棋士を相手に4勝1敗で勝利し、その後も改良されて進化していた。これらの囲碁ソフトは強い棋士の対局データ(棋譜)など「先人の知恵」を活用していた。

ネイチャー掲載論文やディープマインド社によると、「アルファ碁ゼロ」は新しい設計思想の下、膨大なデータなしに「強化学習」だけで優れた結果を出せるようになった。「アルファ碁ゼロ」は今回、囲碁の基本的なルールだけを教えられた後は一手0.4秒という速さで3日間に約490万回の自己対局を繰り返した。最初はランダムに石を置いていたが、自己対局を速い速度で繰り返しながら自ら「勝てる手」を学んで“先輩”の「アルファ碁」に100戦100勝の成績を挙げた。40日後には自己対局数は2900万局に達し、進化していた最新鋭の「アルファ碁」にも勝利したという。

「アルファ碁」は「定石」をデータから学んだが、「アルファ碁ゼロ」は指し手や盤面での対局相手との優劣から「定石」を独学で学んだ。深層学習用のプロセッサ「TPU」は「アルファ碁」には48個使用されていたのに対し、｢アルファ碁ゼロ」は4個で、コンピューターの省力化にもなっている。ディープマインド社の研究開発担当者らは、AIの「アルファ碁ゼロ」の開発成果が幅広い分野での応用を実現する新たな挑戦につながる、としている。

関連記事

「人工知能碁が世界トップに4勝1敗人間棋士も健闘」

「人工知能が囲碁でもプロに勝つ」