1997年國際象棋神話卡斯帕羅夫輸給計算機後,圍棋成爲人類的最後尊嚴。在大多數人看來,計算機想要在圍棋領域戰勝人類,至少須要十年,甚至更長的時間。然而,AlphaGo的出現,直接擊碎了這一想法。網絡
2016年,谷歌旗下的DeepMind團隊發佈AlphaGo,並在以4:1的成績擊敗了世界圍棋冠軍、韓國棋手李世石,震撼全球。打敗李世石的這版AlphaGo,參考學習了大量的人類專業棋手的棋譜。此後,AlphaGo又進化出了AlphaGo Master版本,並以3:0打敗了當今世界圍棋第一人、中國棋手柯潔。「功成名就」後,Deepmind公司宣佈AlphaGo退役,再也不與人類下棋。不過,故事並未結束。退出人類棋壇、無敵寂寞的AlphaGo開始了閉關學習,進行「左右手互博」,從而實現「挑戰自我」、「打敗自我」。2017年10月18日,神祕面紗揭開:DeepMind推出了最新版本,也是迄今爲止最強版本——AlphaGo Zero。學習
在DeepMind的最新論文中,AlphaGo Zero利用了強化學習的方法,在沒有人類指導的狀況下,只用3天時間進行學習,就戰勝了打敗過李世石的那版AlphaGo,比分是100:0。人工智能
在《天然》雜誌上爲DeepMind論文撰寫的評論中,密歇根大學計算機科學和工程學院教授Satinder Singh寫道,這是強化學習轉化爲應用領域裏取得的最大進步之一。遊戲
那麼AlphaGo Zero是如何實現這種飛躍的?前文提到,AlphaGo Zero採用的是人工神經網絡。這種網絡能夠計算出下一步走棋的可能性,估算出下棋選手贏的機率。隨後根據計算,AlphaGo Zero會選擇最大機率贏的一步去下。整個訓練過程當中,並無人類參與,全程是AlphaGo Zero自我學習,自我對弈。get
在訓練過程當中,AlphaGo Zero每下一步須要思考的時間是0.4秒。但正是經過對圍棋遊戲的模擬和訓練,神經網絡變得愈來愈好。值得一提的是,AlphaGo Zero相比以前的版本,僅使用了單一的神經網絡。ast
新版本的AlphaGo究竟有多厲害?戰勝李世石的AlphaGo用了3000萬盤比賽做爲訓練數據,AlphaGo Zero用了490萬盤比賽數據。通過3天的訓練,AlphaGo Zero就以100:0的比分贏下了李世石版AlphaGo,而且只用了1臺機器和4個TPU(谷歌專爲加速深層神經網絡運算能力而研發的芯片)。而李世石版AlphaGo則用了48個TPU。計算機科學
這一切的意義在哪裏?AlphaGo的誕生驚豔了世人,如今AlphaGo Zero又將機器能作到的極限日後推了幾個量級。Satinder Singh認爲,AlphaGo和AlphaGo Zero在一年多時間裏取得的進步已經證實,基於強化學習的人工智能比基於人類知識經驗的智能表現地更好。實際上,AlphaGo Zero未來頗有可能會幫助人類棋手提升棋藝,並啓發他們對圍棋的理解。還有一點也是毋庸置疑的,那就是AlphaGo的成功帶來了全球媒體對於人工智能的關注,也讓圍棋變成流行與美並存的遊戲。神經網絡
美國圍棋協會的Andy Okun和Andrew Jackson也爲這次的論文在《天然》雜誌上撰寫了評論,他們認爲,圍棋人工智能的出現,重啓了咱們究竟對圍棋這項遊戲瞭解多少這個問題。一般一個世紀纔會出現一位傳奇的圍棋棋手,他能改變人類對圍棋的理解。而當AlphaGo戰勝李世石,Master以60:0的成績橫掃各國頂尖棋手,並以3:0贏下柯潔後,關於人工智能給圍棋帶來的啓示一直不絕於耳。方法
這一次,AlphaGo Zero帶來的進步確定也是圍棋棋手往後學習的寶庫。要知道,AlphaGo Zero是獨立學習訓練的,但它使用的招數卻超越了許多人類棋手的下棋順序和招法。也就說,人工智能豐富了咱們下圍棋的選擇。或許它在下棋過程當中有些下法是人類沒法理解的,甚至認爲是錯誤的,但在機器的理解看來確實萬分正確的。從這些經驗中,人類棋手看到了與以往不一樣的圍棋世界。im
「以前,人類與人工智能對話老是顯得很是遙遠,甚至像科學小說。但如今對於圍棋選手來講,對話已經發生了,就在這裏。」 Andy Okun和Andrew Jackson說。
(更多點擊:產權交易)(連接:http://www.jstec.com.cn)