【重磅】AlphaZero煉成最強通用棋類AI，DeepMind強化學習算法8小時完爆人類棋類遊戲

時間 2019-12-11

標籤重磅 alphazero 最強通用棋類 deepmind 強化學習算法小時人類遊戲欄目 Google 简体版

原文原文鏈接

世界最強圍棋AI AlphaGo Zero帶給世人的震撼並無想象中那麼久——不是由於你們都去看誰（沒）跟誰吃飯了，而是DeepMind再次迅速超越了他們本身，超越了咱們剩下全部人的想象。html

12月5日，距離發佈AlphaGo Zero論文後不到兩個月，他們在arXiv上傳最新論文《用通用強化學習算法自我對弈，掌握國際象棋和將棋》（Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm），用看似平淡的標題，平淡地拋出一個炸彈。算法

其中，DeepMind團隊描述了一個通用棋類AI「AlphaZero」，在不一樣棋類遊戲中，打敗了全部對手，而這些對手都是各自領域的頂級AI：框架

打敗最強國際象棋AI Stockfish：28勝，0負，72平；
打敗最強將棋AI Elmo：90勝，2平，8負；
打敗最強圍棋AI AlphaGo Zero：60勝，40負

其中，Stockfish是世界上最強的國際象棋引擎之一，它比最好的人類國際象棋大師還要強大得多。與大多數國際象棋引擎不一樣，Stockfish是開源的（GPL license）。用戶能夠閱讀代碼，進行修改，回饋，甚至在本身的項目中使用它，而這也是它強大的一個緣由。學習

我有幾張阿里雲幸運券分享給你，用券購買或者升級阿里雲相應產品會有特惠驚喜哦！把想要買的產品的幸運券都領走吧！快下手，立刻就要搶光了。阿里雲

將棋AI Elmo的開發者是日本人瀧澤城，在第27屆世界計算機將棋選手權賽中得到優勝。Elmo的策略是在對戰中搜索落子在哪一個位置勝率更高，判斷對戰形勢，進而調整策略。Elmo名字的由來是electric monkey（電動猴子，愈來愈強大之意），根據做者的說法也有elastic monkey（橡皮猴子，愈挫愈勇）之意。設計

而AlphaGo Zero更是沒必要介紹，相信「阿法元」之名已經傳遍中國大江南北。而AlphaZero在訓練34小時後，也賽過了訓練72小時的AlphaGo Zero。3d

AlphaZero橫空出世，網上已經炸開了鍋，Reddit網友紛紛評論：AlphaZero已經不是機器的棋了，是神仙棋，很是優美，富有策略性，更能深入地謀劃（maneuver），徹底是在調戲Stockfish。htm

看着AlphaZero贏，簡直太難以想象了！這根本就不是計算機，這壓根兒就是人啊！blog

Holy fu*ck，第9場比賽太特麼瘋狂了！遊戲

DeepMind太神了！

個人神啊！它居然只玩d4/c4。整體上來看，它彷佛比咱們訓練的要少得多。

這條消息太瘋狂了。

而知乎上，短短几小時內也有不少評論：

知乎用戶fffasttime：專治各類不服的DeepMind又出師了，但此次的主攻的內容再也不是圍棋了，而是全部的棋類遊戲。……以前AlphaGo把圍棋界打得心態崩了，而如今AlphaZero贏的不光是人類棋手，還包括各路象棋的AI做者。

知乎用戶陸君慨：棋類的解決框架一直都是基於 minimax + heuristic。之前圍棋難是由於minimax在有着很大分支的遊戲上沒法產生足夠的深度，而且heuristic難以設計。Alphago Zero時候就已經證實了cnn很適合作heuristic，而mcts也能夠解決深度問題。那爲何別人不作呢？

由於貧窮限制了咱們的想象力。