不以人類爲師的阿爾法狗，爲人與AI對話提供「窗口」

時間 2019-11-07

標籤不以人類爲師阿爾法爲人對話提供窗口简体版

原文原文鏈接

1997年國際象棋神話卡斯帕羅夫輸給計算機後，圍棋成爲人類的最後尊嚴。在大多數人看來，計算機想要在圍棋領域戰勝人類，至少須要十年，甚至更長的時間。然而，AlphaGo的出現，直接擊碎了這一想法。網絡

　　2016年，谷歌旗下的DeepMind團隊發佈AlphaGo，並在以4:1的成績擊敗了世界圍棋冠軍、韓國棋手李世石，震撼全球。打敗李世石的這版AlphaGo，參考學習了大量的人類專業棋手的棋譜。此後，AlphaGo又進化出了AlphaGo Master版本，並以3：0打敗了當今世界圍棋第一人、中國棋手柯潔。「功成名就」後，Deepmind公司宣佈AlphaGo退役，再也不與人類下棋。不過，故事並未結束。退出人類棋壇、無敵寂寞的AlphaGo開始了閉關學習，進行「左右手互博」，從而實現「挑戰自我」、「打敗自我」。2017年10月18日，神祕面紗揭開：DeepMind推出了最新版本，也是迄今爲止最強版本——AlphaGo Zero。學習

　　在DeepMind的最新論文中，AlphaGo Zero利用了強化學習的方法，在沒有人類指導的狀況下，只用3天時間進行學習，就戰勝了打敗過李世石的那版AlphaGo，比分是100：0。人工智能

在《天然》雜誌上爲DeepMind論文撰寫的評論中，密歇根大學計算機科學和工程學院教授Satinder Singh寫道，這是強化學習轉化爲應用領域裏取得的最大進步之一。遊戲

　　那麼AlphaGo Zero是如何實現這種飛躍的？前文提到，AlphaGo Zero採用的是人工神經網絡。這種網絡能夠計算出下一步走棋的可能性，估算出下棋選手贏的機率。隨後根據計算，AlphaGo Zero會選擇最大機率贏的一步去下。整個訓練過程當中，並無人類參與，全程是AlphaGo Zero自我學習，自我對弈。get

　　在訓練過程當中，AlphaGo Zero每下一步須要思考的時間是0.4秒。但正是經過對圍棋遊戲的模擬和訓練，神經網絡變得愈來愈好。值得一提的是，AlphaGo Zero相比以前的版本，僅使用了單一的神經網絡。ast

　　新版本的AlphaGo究竟有多厲害？戰勝李世石的AlphaGo用了3000萬盤比賽做爲訓練數據，AlphaGo Zero用了490萬盤比賽數據。通過3天的訓練，AlphaGo Zero就以100：0的比分贏下了李世石版AlphaGo，而且只用了1臺機器和4個TPU（谷歌專爲加速深層神經網絡運算能力而研發的芯片）。而李世石版AlphaGo則用了48個TPU。計算機科學

　　這一切的意義在哪裏？AlphaGo的誕生驚豔了世人，如今AlphaGo Zero又將機器能作到的極限日後推了幾個量級。Satinder Singh認爲，AlphaGo和AlphaGo Zero在一年多時間裏取得的進步已經證實，基於強化學習的人工智能比基於人類知識經驗的智能表現地更好。實際上，AlphaGo Zero未來頗有可能會幫助人類棋手提升棋藝，並啓發他們對圍棋的理解。還有一點也是毋庸置疑的，那就是AlphaGo的成功帶來了全球媒體對於人工智能的關注，也讓圍棋變成流行與美並存的遊戲。神經網絡

　　美國圍棋協會的Andy Okun和Andrew Jackson也爲這次的論文在《天然》雜誌上撰寫了評論，他們認爲，圍棋人工智能的出現，重啓了咱們究竟對圍棋這項遊戲瞭解多少這個問題。一般一個世紀纔會出現一位傳奇的圍棋棋手，他能改變人類對圍棋的理解。而當AlphaGo戰勝李世石，Master以60：0的成績橫掃各國頂尖棋手，並以3:0贏下柯潔後，關於人工智能給圍棋帶來的啓示一直不絕於耳。方法

　　這一次，AlphaGo Zero帶來的進步確定也是圍棋棋手往後學習的寶庫。要知道，AlphaGo Zero是獨立學習訓練的，但它使用的招數卻超越了許多人類棋手的下棋順序和招法。也就說，人工智能豐富了咱們下圍棋的選擇。或許它在下棋過程當中有些下法是人類沒法理解的，甚至認爲是錯誤的，但在機器的理解看來確實萬分正確的。從這些經驗中，人類棋手看到了與以往不一樣的圍棋世界。im

　　「以前，人類與人工智能對話老是顯得很是遙遠，甚至像科學小說。但如今對於圍棋選手來講，對話已經發生了，就在這裏。」 Andy Okun和Andrew Jackson說。

(更多點擊：產權交易)（連接：http://www.jstec.com.cn）