クロネコの塵壺

自分の頭で考えて生きていこう

アルファ碁ゼロ、爆誕。AIのパラダイムシフト、データからシュミレーションへ。

Feu d'artifice 2015 (Neurals network)

 アルファ碁の続報です。前回アルファ碁関係の記事(アルファ碁マスターと囲碁棋士 柯潔(かけつ)九段との対決について思うこと)を書いたのが2017年6月なので、それから約4ヵ月ですね。

 4ヵ月しか経っていないのにとんでもないものを作りましたね。そうです、アルファ碁ゼロ、爆誕です。アルファベット子会社のディープマインド社が開発したアルファ碁ゼロは、人間の棋譜データを一切使用せず、自己対戦のみで学習をします。

 前回までのアルファ碁は、教師あり学習+深層学習+強化学習だったのに対し、最新版は、深層学習+強化学習という手法に変わったということですね。

 そのアルファ碁ゼロは、490万回の自己対局の後、イセドル九段に勝利した旧バージョンのアルファ碁に全勝し、2900万回の自己対局の後は、世界最強の囲碁棋士カケツ九段に勝利したアルファ碁マスターにも約9割の勝率だったそうです。

 他にもディープマインド社のホームページ(AlphaGo Zero: Learning from scratch | DeepMind)を見ると旧バージョンと以下の部分が違います。

  1. アルファ碁ゼロは、(コンピューター上で)黒石と白石のみを入力として使うが、旧バージョンでは少しばかり人間の手作業を必要とした。
  2.  旧バージョンでは2つのニューラルネットワークを使用していたが、アルファ碁ゼロでは、それらを統合し、1つのニューラルネットワークを使用する。
  3. アルファ碁ゼロは、以前のバージョンで使用していたロールアウトポリシーという仕組みを使用しない。代わりに、高品質のニューラルネットワークに依存している。

  一つ目は、AIの自己学習に人間の手作業が少し必要だったけどそれも不要になったということですね。二つ目は、ニューラルネットワークを統合することでより効率的に自己学習が可能になったということ。三つ目のロールアウトポリシーというのは一般的な囲碁プログラムでも使用されているもので、次の一手を評価する時に終局までランダムに打ち進めてみる手法なのです。こういう手法を使用しないことで、さらに効率的な学習が可能になったと言いたいのでしょう。

 感想としては、これまで積み上げてきた人間の知識が不要というのは少し寂しい気がします。ただ、人間だって(時間的に不可能ですが)490万回も試行錯誤すればそこそこ強くなれると思うので、試行錯誤の重要性というか、まあどういう風に試行錯誤するか、というのもあると思いますけど、少し安心した部分もあります。

 効率化、高速化、最適化という分野はAIというかコンピュータの十八番なので、こういう特性を十分に活用して人類の喫緊の課題(エネルギー問題、創薬・難病の解明といった医療分野)で成果が出ることを望みます。加えて、資源を最適に配分するという意味で政治なんかもAIに任せた方がいいかもしれませんね。そうなると政治家も失業ですね。

 最後にNEWSWITCHの記者の方が今回のアルファ碁ゼロについて興味深い発言をしていたので、それを引用して終わりにしたいと思います。

AIの競争軸がデータからシミュレーションに移行したのだと思います。Data is new Oil、データの独占競争に負けるな、という記事を書いてきましたが、競争原理が変わろうとしています。完全にシミュレーションできる囲碁のような世界はAIはビッグデータに頼らず独力でどうにかできるようになります。データよりもアルゴリズムと計算力の比重が大きくなり、データが成長限界ではなくなると思います。

出典:独習するAI「アルファ碁ゼロ」、英ディープマインドが開発 “定石”自力獲得

 

参考文献:

AlphaGo Zero: Learning from scratch | DeepMind

No.180 - アルファ碁の着手決定ロジック(1):クラバートの樹:So-netブログ

独習するAI「アルファ碁ゼロ」、英ディープマインドが開発 “定石”自力獲得

「アルファ碁ゼロ」 最強AI、人間の棋譜学ばずAIどうしの対局で上達