AlphaGo Zeroに再び衝撃

GoogleDeepmind社から衝撃的なリリースが再び
http://www.huffingtonpost.jp/2017/10/18/alphago-zero_a_23248198/

囲碁の人工知能研究には一区切りで、ライフサイエンスなど他分野に注力してるものと思っていたので、新しいバージョンが発表されるとは思ってませんでした。

◆これまでのAlphaGoの進化

AlphaGo Fan　(AGF) 2015年アマの欧州王者ファンフェイと打った時の最初のバージョン
AlphaGo LeeSedol(AGL)　2016年　世界トップ選手の李セドルと打った時のバージョン
AlphaGo Master(AGM)　2016年～2017年60連勝して、ランキング1位柯潔と打った時のバージョン
AlphaGo Zero(AGZ)　今回の発表

強さのレベルはDeepmind社が出しているイロレーティング(EloRating)を参照

今回は下記の表のように４０日間で今までのAlphaGoを越えた。

f:id:Umeyan:20171019170655p:plain

◆今回の発表の骨子とは？

簡単にいうとこんな感じ？

・教師データなしの強化学習のみを進めて、これまでのバージョンを越える勝率の人工知能は開発した。
・極めて早い速度で人間はおろか、これまで発表したAlphaGoを越えた
※3日でAGLレベル、21日でAGM、40日で前人未到領域のレーティングに到達している。
・評価関数をこれまでのポリシーネットワークとバリューネットワークを使用するのではなく、統合された一つのネットワークを使用している。
・これまでのロールアウトは使用しない。(すなわちモンテカルロ探索によるランダムシュミレーションしないということ)
・消費電力は最新型AGMと同じく初期バージョンの1/48でかなり効率的
http://news.mynavi.jp/column/tpu/003/

◆ぞっとさせる進化の意味合いとそのスピード

なんか色々まじかよ。。。
としか思えないのですが、どういうアルゴリズムの設計をしているのか、興味があります。説明を受けてもわからない可能性大ですが。。

上記の意味合いを解釈すると、こんな感じでしょうか。。
これまでディープラーニングではこれまでの大量のデータがあってこそ、強力な人工知能を創り出すことができるというように思っていたのですが、その論をちょっと修正して過去のデータがなくてもシュミレーションにより大量のデータを創り出すことができる場合は、可能だということ。
寧ろ下手したら人間の手垢がついていない状況のほうが、より革新的な成果を生むことができる。
しかもそのスピードは極めて早い。※人間よりシュミレーションにより圧倒的に経験量を増やす環境がある場合においてはですが

ちょっとよくわからんのが、これまでの評価関数をどのように統合しているのか？
人間に置き換えるとポリシーネットワークは直感(第１感)でバリューネットワークは大局観。
これが統合されたということであれば、どんな評価関数を創り上げているんでしょうか？
上記の新しい評価関数の評価による決定で、これまでのランダムシュミレーションをなくしているみたいだし、あるいみ非連続変化だと思う。
重要なのはこのアルゴリズムをつくる上で、これまでのAlphaGoのバージョンの経験蓄積があったからできた変化なのか、そうではないのか？
僕は多分前者だとは思うのですが、後者だったりしたらえらいこっちゃとしか言いようがない。人類史に革命を何度起こすつもりですかね。。

これまでのAlphaGoに関する投稿

umeyan.hatenablog.com