AlphaGoが見せてくれた「大局観」という可能性
囲碁において、世界トップ棋士に勝利したことで有名になった、DeepMindのAlphaGoがまたまた進化したようですね。
記事には以下のようにあります。
アルファ碁ゼロは、棋譜のデータに頼らず、人間の初心者以下の状態から強化学習だけで上達する。
アルファ碁ゼロっていうんですね。やっぱり教師データとなる棋譜を全く使わないからゼロがつくんですかね。。。
アルファ碁は、アルゴリズムとして教師あり機械学習、ディープラーニング、強化学習を素晴らしくうまく組み合わせてパフォーマンスを発揮していましたが、アルファ碁ゼロはディープラーニングと強化学習のみで囲碁を学習していくようですね。
同じDeepMindがかつて発表した、ゲームを画像のみから強化学習で学習し強くなっていくDQNに近しいものになったと言えそうです。
かつてアルファ碁がイ・セドル九段に勝利したのを知った時、私が一番気になったのは、定石にはない打ち手の斬新さ、といったことより、「アルゴリズムが、囲碁というゲームにおいて人間を超える大局観を手に入れたのではないか」という仮説です。
ディープラーニングなどのアルゴリズムの特色として、判断のスピードと精度がよく注目されることがあります。顔認識や、不良品の検知などを「一瞬」で人間より「正確」に判断することができる、などの特性です。
こと判断スピードに関しては、早いことばかりもてはやされていますが、本質的な価値は「人間がうまく対応できないタイムスケールに対応できる」という点にあります。
人が反応できないミリ秒単位で認識できることには価値があります。
同様に、より長い時間での判断でも同じように価値があります。
なぜなら世の中には、より長期的な視点に基づく意思決定が必要な場合があります。そういう場合は、短期的に見たときと長期的に見たときで、とるべき判断が食い違うといった矛盾が生じることがあります(短期的には損益が悪化するけども、将来を見越して投資する、といったように)。この場合、短期的に見た最善手と長期的に見た最善手が矛盾し、将来のリターンに対して最適化するなら、短期的に不合理な選択をする必要が出てきます。
そのような判断ができることを私は「大局観がある」と表現しています。
イ・セドル九段との対戦の際、アルファ碁は序盤に人間から見て不可解な、定石を外れた手を多く打っていたようです。
以下は山本教授の「人工知能はどのようにして「名人」を超えたか?」よりの抜粋です。
そうそう20手先までいくと「これおかしいんじゃない?」と思っていた手が、好手だったとわかる。アルファ碁はこれがやりたかったんだ、と。
人工知能はどのようにして 「名人」を超えたのか?―――最強の将棋AIポナンザの開発者が教える機械学習・深層学習・強化学習の本質
- 作者: 山本一成
- 出版社/メーカー: ダイヤモンド社
- 発売日: 2017/05/11
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (6件) を見る
これは、囲碁というゲームにおいて、アルゴリズムが「勝利」という長期的なゴールを目指して戦略的行動を取ったと言えます。
このアルゴリズムは、他のいろいろな戦略的ゲームに応用できます。実際に、アルファ碁を開発したDeepMindでは、スタークラフトという戦略シミュレーションゲームを次の舞台として検証を進めています。
囲碁という抽象的な戦略ゲームから、種族間の戦争をシミュレートするゲームへ。DeepMindのアルゴリズムがその先に現実の戦争をコントロールしようとしているとは思いたくないですが、もしかしたらそうなった場合、人間より「効率的に」戦争を終わらせることができるかもしれません。おそろしや。。。