算法比數據和計算更重要，AlphaGo Zero自學3天100:0完爆舊狗

時間 2019-12-01

標籤算法數據計算重要 alphago zero 自學 3天简体版

原文原文鏈接

譯者｜核子可樂
編輯｜Vincent
AI前線出品｜ ID：ai-front 原文連接：http://t.cn/ROkzAzb

時至今日，人工智能研究已經在從語音識別到圖像分類，再到基因組學乃至藥物發現等各個領域取得快速發展。而其中大多數場景本來都是須要投入大量人力資源與數據的專業系統。算法

然而，對於一部分特定問題，利用人類知識加以解決則每每成本太高——包括不夠可靠或者根本沒法承擔如此龐大的工做量等。所以，AI 研究的長期目標在於繞過人爲階段，而是創造算法，最終在無需人類介入的前提下立足各種挑戰性領域實現超越人類的成效表現。在最近發表於《天然》雜誌的論文當中，DeepMind 展示了邁向這一目標的重要一步。網絡

從零開始

這篇論文介紹了 AlphaGo Zero，即 AlphaGo 的最新發展成果、亦是第一款可以在圍棋這種古老的中國競技項目當中擊敗世界冠軍的計算機程序。Zero 則更爲強大，能夠說是有史以來最卓越的圍棋棋手。app

AlphaGo 以前的各個版本最初由數千名業餘及專業圍棋棋手進行訓練，藉以學習圍棋的規則與技巧。AlphaGo Zero 則路過了這一步，其可以從徹底隨機的對弈開始自行學習規則。在這樣的前提之下，Zero 很快即超過了人類的棋藝水平，並以 100 比 0 的成績迅速擊敗上一代「世界冠軍」AlphaGo。性能

其之因此可以取得如此優秀的成績，是由於 AlphaGo Zero 利用一種全新強化學習形式實現「自爲自師」。該系統最初只是一套徹底不瞭解圍棋遊戲規則的神經網絡。在此以後，經過將該神經網絡與強大的搜索算法相結合，便可進行自我對戰。在對弈過程中，該神經網絡經歷高速與更新，從而預測接下來的最佳行動並最終在遊戲中勝出。學習

這套通過更新的神經網絡隨後與搜索算法進行重組，藉以建立新的、更爲強大的 AlphaGo Zero 版本，這一過程將周而復始不斷進行。在每一次迭代當中，系統成效都將迎來小幅提高，並使得 AlphaGo Zero 變得棋力愈盛、神經網絡自己也愈來愈精確。人工智能

這項技術之因此比本來的 AlphaGo 更爲強大，是由於其再也不受限於人類的知識水平。相反，其可以像一張白紙般從世界上最強的棋手——AlphaGo——身上學習技巧。設計

另外，Zero 與第一版 AlphaGo 相比還擁有如下不一樣之處。• AlphaGo Zero 僅使用圍棋棋盤上的黑白棋子做爲輸入信息，而 AlphaGo 的以往版本仍包含少許手動設計功能。3d

• 其僅採用單一神經網絡，而非像第一版 AlphaGo 那樣使用兩套。AlphaGo 的各早期版本利用一套「策略網絡」選擇下一步行動，另外配合一套「價值網絡」以預測各個點位對遊戲結果的影響。兩者在 AlphaGo Zero 當中併合而爲一，使其可以更爲高效地實現訓練與評估。cdn

• AlphaGo Zero 並不使用「推演」——即常見於其它圍棋程序當中，根據現有盤面局勢進行結果預測的快速隨機對弈流程。相反，其依賴於高質量神經網絡以評估當前盤面形勢。blog

上述差別的存在有助於提高系統成效並令其具有更爲理想的通用能力。而在另外一方面，算法的改變也令系統自己更爲強大且高效。

隨着硬件性能的提高以及近期算法的持續改進，AlphaGo 的效率正在不斷突破新高。

僅僅在三天的自我對弈以後，AlphaGo Zero 就已經以 100 比 0 的結果強勢擊敗了此前發佈的 AlphaGo 版本——然後者曾經擊敗 18 項世界冠軍頭銜擁有者李世石。通過 40 天的自我訓練以後，AlphaGo Zero 變得更爲強大，且全面碾壓此前曾擊敗全球最強棋手柯傑的 AlphaGo「Master」版本。

Elo 評分——一項用於衡量競爭性遊戲（例如圍棋）中選手相對技能水平的指標，其結果顯示出 AlphaGo 在發展過程中如何逐步走向強大。

在數百萬場 AlphaGo 對 AlphaGo 的比賽當中，這套系統從零開始逐步掌握了圍棋技巧，並在短短數天時間中積累到了數千年孕育而來的人類知識。AlphaGo Zero 亦從中發現更多新適度，制定出更多很是規型策略以及創新下法，這進一步反映甚至超越了此前 AlphaGo 在對陣李世石與柯傑時所發揮出的水平。