奇點到來，超越人類《Nature論文：人工智能從0-1自學戰勝阿法狗》論文翻譯

時間 2019-11-30

標籤到來超越人類 nature 論文人工智能自學戰勝翻譯简体版

原文原文鏈接

翻譯前言

阿法狗 ZERO以100：0戰勝阿法狗，引發轟動，論文在Nature發表。阿法狗 ZERO引發轟動的緣由： 1.徹底自學，超越人類。 2.發展出超越人類認知的新知識，新策略。 3.可以快速移植到新領域算法

本文是我和好友春（機器學習在讀博士，研究方向爲天然語言處理，機器學習，深度學習，微信號：zyc973950709）一同翻譯，感謝。其中第三章考慮篇幅去掉,具體查看原文，或者私信我。微信

題目(Nature論文)

Mastering the game of Go without human knowledge網絡

做者

David Silver1*, Julian Schrittwieser1*, Karen Simonyan1*, Ioannis Antonoglou1, Aja Huang1, Arthur Guez1, Thomas Hubert1, Lucas Baker1, Matthew Lai1, Adrian Bolton1, Yutian Chen1, Timothy Lillicrap1, Fan Hui1, Laurent Sifre1, George van den Driessche1, Thore Graepel1 & Demis Hassabis1架構

摘要

長久以來，人工智能的目標是在富有挑戰性的領域中學習出一種從無知幼兒到超級專家的算法。最近，AlphaGo成爲了在圍棋遊戲中戰勝人類世界冠軍的第一個程序。其中，AlphaGo對下棋位置的預估和選定下棋位置所使用的樹搜索算法使用了神經網絡。這些網絡利用高段位棋手的走棋經過有監督學習的方式來訓練，而後經過自我對弈來完成進行加強學習。本篇論文中咱們提出了一種徹底獨立的加強學習算法，算法不須要人工數據，或是基於遊戲規則的引導或領域知識。AlphaGo變成了本身的老師：訓練一個神經網絡用來完成AlphaGo的落子預測和對弈的贏家。這個網絡同時還提升了樹搜索的能力，帶來的結果就是可以在下一手中有更高質量的落子選擇和更強的自我對弈能力。從無知幼兒開始，咱們新的程序—AlphaGo Zero達到了超級專家的水平，在與以前開發的AlphaGo（指代和李世石對弈的AlphaGo）的對弈中，取得了100-0的完勝。機器學習

引言

利用有監督學習來複制人類專家的決策結果使得人工智能取得了長足發展。然而，專家數據一般須要大量財力，並且也存在不可靠和難以獲取的缺點。甚至有的時候獲取了可靠的數據以後，也會對經過這種方式訓練的系統的性能加以強制限制[5]。於此相反的是，強化學習系統是經過自身的經驗來完成訓練的，因此在原則上他們是能夠超越人類的能力，並在人類經驗缺失的領域也能工做。近年來，利用強化學習訓練的深部神經網絡已經取得了較快的進展。這些系統在電子遊戲中已經超越了人類玩家的水平，好比說Atari[6,7]和3D虛擬遊戲[8,9,10]。然而，就人類智力而言最富有挑戰性的遊戲領域—好比說圍棋就被普遍的認爲是AI領域的重大挑戰。這些遊戲須要在龐大的搜索空間中完成精確複雜的預判（也就是咱們說的看幾步棋）。在這個領域中的全部的通常方法都不能達到人類棋手的水平。函數

AlphaGo是在圍棋領域能達到人類超級專家水平的第一個程序，咱們開發的第一個版本—AlphaGo Fan在2015年10月戰勝了歐洲圍棋冠軍Fan Hui（樊麾:法國國家圍棋隊總教練）。AlphaGo使用了兩個深度神經網絡：一個是策略網絡輸出下一步落子位置的機率，一個是價值網絡輸出對位置的評估（也就是落子勝率）。策略網絡經過有監督的學習來精確的預測高段位棋手的落子，以後再經過價值梯度加強學習來完成系統的加強。價值網絡經過策略網絡的自我博弈來預測遊戲的勝方從而完成訓練。訓練結束以後，這兩個網絡經過蒙特卡洛樹搜索的算法相結合來提供對將來局勢的前望。使用策略網絡來縮小高几率落子的搜索過程，使用價值網絡（結合蒙特卡洛快速走子策略）在樹上完成對落子位置的評估。在以後的開發版本中，咱們稱爲AlphaGo Lee，使用和以前相同的方法，在2016年戰勝了Lee Sedol（18項國際冠軍）。性能

咱們如今的程序，AlphaGo Zero，和 Alpha Go、Alpha Lee這些以前的版本相比較，在不少方面都有不一樣。最重要的是，AlphaGo Zero徹底獨立的經過自我博弈加強學習來完成訓練，從剛開始的隨機博弈開始就沒有任何的監督或使用人工數據。其次，它只使用棋盤上的黑白子做爲輸入特徵（以前的AlphaGo有人工構建的許多特徵）。第三，只使用一個神經網絡，而不是分開的策略網絡和價值網絡。第四，只使用依賴於單一神經網絡的簡化版樹搜索來評估落子機率和落子對局勢的影響，再也不使用蒙特卡洛的方法。爲了實現這些方面，咱們開發了一種能在訓練過程當中完成前向搜索的加強學習算法，目的是爲了快速的提升和精確穩定的學習過程。對這些網絡結構差別、搜索算法的不一樣已經訓練過程的不一樣咱們將會在Methods部分作進一步的詳述。學習

AlphaGo Zero增強學習理論

咱們的新方法使用具備參數θ的深層神經網絡fθ。該神經網絡將位置及其歷史的原始圖表表明做爲輸入，輸出移動機率和值（p，v）=fθ（s）。移動機率的向量p表示選擇每一個移動a（包括pass），pa = Pr（a | s）的機率。值v是標量評估，估計當前玩家從位置s獲勝的機率。該神經網絡將策略網絡和價值網絡12的角色結合到單一架構中。神經網絡包括許多殘差塊的卷積層，批量歸一化和整流器非線性（參見方法）。ui

AlphaGo Zero中的神經網絡是經過一種新的強化學習算法從自我遊戲中進行訓練。在每一個位置，執行MCTS搜索，由神經網絡fθ指導。 MCTS搜索輸出每次移動的機率π。這些搜索機率一般選擇比神經網絡fθ（s）的原始移動機率p更強的移動;所以，MCTS可能被視爲強大的策略改提供者。使用改進的基於MCTS的策略來選擇每一個動做，而後使用遊戲贏家z做爲價值的樣本，能夠自我搜索 - 能夠被視爲強大的策略評估運算符。咱們的強化學習算法的主要思想是使用這些搜索算子。人工智能

圖1a |在AlphaGo Zero中自我強化學習。

該程序針對本身的遊戲s1，...，sT。在每一個位置st中，使用最新的神經網絡fθ執行MCTSαθ（參見圖2）。根據MCTS計算的搜索機率選擇移動，在〜πt。終端位置sT根據遊戲規則得分，以計算遊戲贏家z。

圖b，AlphaGo Zero的神經網絡訓練。

神經網絡將原始位置st做爲其輸入，將其傳遞給具備參數θ的許多卷積層，而且輸出表示移動的機率分佈的向量pt和表示當前選手在位置st中獲勝的機率的標量值vt。更新神經網絡參數θ以最大化策略向量pt與搜索機率πt的類似度，而且使預測的勝者vt和遊戲勝者z之間的偏差最小化（參見等式（1））。新參數用於下一次自播的迭代。

在策略迭代過程當中反覆22,23：更新神經網絡的參數以使移動機率和值（p，v）=fθ（s）更接近匹配改進的搜索機率和自播贏勝者（π，z）;這些新參數用於下一次自我播放，使搜索更增強大。圖1說明了自我播放訓練流水線。 MCTS使用神經網絡fθ來引導其模擬 #（參見圖2）

搜索樹中的每一個邊（s，a）存儲先驗機率P（s，a），訪問次數N（s，a）和動做值Q（s，a）。每一個模擬從根狀態開始，並迭代地選擇最大化上限置信度Q（s，a）+ U（s，a）的移動，其中U（s，a）αP（s，a）/ （1 + N（s，a））（參考12,24），直到遇到葉節點s'。（P（s'，·），V（s'））=fθ（s'），經過網絡對該葉位置進行擴展和評估，僅基於兩個先驗機率和評估。在模擬中遍歷的每一個邊（s，a）被更新以增長其訪問次數N（s，a），而且將其動做值更新爲對這些模擬的均值估計，Q（s，a）= 1 / N（ s，a）Σs'| s，a→s'V（s'）其中s，a→s'表示在從位置s移動a以後，模擬最終達到s'。 MCTS能夠被看做是一種自播算法，給定神經網絡參數θ和根位置s，計算推薦移動遊戲的搜索機率向量，π=αθ（s），與每次移動的指數訪問次數成比例，πaαN（s，a）1 /τ，其中τ是溫度參數。

神經網絡經過自我強化學習進行訓練，使用MCTS計算每一個動做的算法。一，神經網絡被初始化爲隨機權重θ0。在每次後續迭代i≥1時，產生本身計算的遊戲（圖1a）。在每一個時間步長t，MCTS searchπt=αθi-1（st）使用上述語句執行網絡fθi-1，並經過對搜索機率π進行採樣來進行移動。當兩個玩家經過時，當搜索值降低到閾值如下或當遊戲超過最大長度時，遊戲終止於步驟T;而後遊戲得分，以給予決賽獎勵rT∈{-1，+ 1}（詳見方法）。每一個數據時間步t存儲爲（st，πt，zt），其中zt =±rT是遊戲贏家。從步驟t的當前玩家的角度來看。並行地（圖1b），新的網絡參數θ是從上一次自播的全部時間步長中均勻採樣的數據（s，π，z）進行訓練的。神經網絡（p，v）=fθi（s）被調整爲假設預測值v和自播贏者z之間的差別，而且最大化神經網絡移動機率p與搜索機率π的類似性。具體來講，經過對均方偏差和交叉熵損耗求和的損失函數l，經過梯度降低來調整參數θ（p，v）=fθ（s）和l =（z-v）2 -πTlogp + cθ2（1）其中c是控制L2權重正則化水平的參數（防止過分配合）。

AlphaGo Zero的最終表現

咱們隨後使用更大的神經網絡和更長的持續時間將咱們的強化學習流程應用於AlphaGo Zero的第二個實例。訓練再次從徹底隨機的行爲開始，持續約40天。在訓練過程當中，生成了二千九百萬次自娛自樂的遊戲。參數從310萬個小批量更新，每一個2048個職位。神經網絡包含40個殘差塊。學習曲線如圖6a所示。在擴展數據圖5和補充信息中顯示了在訓練中按期進行的遊戲。

咱們經過內部比賽對AlphaGo Fan，AlphaGo Lee和幾個之前的Go程序評估了全面訓練的AlphaGo Zero。咱們還針對最強大的現有程序，AlphaGo Master - 基於本文中提出的算法和架構的程序，（但使用人力資源和功能） - 在線上擊敗了最強大的人力專業人員60-0（在咱們的評估中），全部的過程都被容許每次移動5次思惟時間; AlphaGo Zero和AlphaGo Master都在4臺TPU的單機上播放; AlphaGo Fan和AlphaGo Lee分別分佈在176個GPU和48個TPU上。咱們還包括一個徹底基於AlphaGo Zero的原始神經網絡的玩家;這個玩家只是以最大的機率選擇了移動。

圖6b顯示了每一個程序在Elo量表上的性能。原始神經網絡，沒有使用任何前瞻，實現了Eo評級爲3,055。相比之下，AlphaGo Zero的評級爲5,185 李（擊敗Lee Sedol），阿爾法·範（擊敗範慧）以及之前的Go程序瘋狂石，Pachi和GnuGo。每一個程序每次都有5秒的思考時間。 AlphaGo Zero和AlphaGo Master在Google Cloud上的一臺機器上播放; AlphaGo Fan和AlphaGo Lee分佈在許多機器上。還包括AlphaGo Zero的原始神經網絡，其直接選擇最大機率pa的移動a，而不使用MCTS。計劃以Elo量表評估25：200分差距對應於75％的獲勝機率。 AlphaGo Master爲4,858，AlphaGo Lee爲3,739，AlphaGo Fan爲3,144。最後，咱們評估了AlphaGo Zero的頭腦，與AlphaGo Master進行了一場100小時的比賽，並以2小時的時間控制。 AlphaGo Zero贏得89場比賽至11場（見擴展數據圖6和補充資料）。

結論

咱們的研究結果全面代表，即便在最具挑戰性的領域，純粹的強化學習方法也是徹底可行的：沒有人類的例子或指導，沒法超越基本規則領域的知識，有可能訓練到超人的層面。此外，與人類專家培訓的數據相比，純強化學習方法須要訓練幾個小時，並實現更好的漸近性能。使用這種方法，AlphaGo Zero擊敗了AlphaGo的最強大的版本，它們使用手工製做的資源進行了大量的培訓。人類已經從數百萬年來玩過的數百萬場遊戲中積累了Go的知識，共同融入了模式，資源和書籍。在幾天的時間裏，Alphaura Zero可以從新發現這些Go知識，以及爲最古老的遊戲提供新的看法的新穎策略。

翻譯倉促，若有錯誤，歡迎指正~