《master the game of GO wtth deep neural networks and tree search》研究解讀

時間 2019-11-29

標籤 master game wtth deep neural networks tree search 研究解讀欄目遊戲简体版

原文原文鏈接

如今」人工智能「如此火爆的一大直接緣由即是deepmind作出的阿爾法狗戰勝李世石，從那時開始計算機科學/人工智能成爲了吹逼的主流。記得當時仍是在學校晚新聞的時候看到的李世石輸的消息，這個新聞都是我給打開的hhhhh，對當時場景的印象仍是蠻深的。如今涵哥就帶你們追根溯源，看看把人工智能推上吹逼大道的研究與技術究竟是怎麼一回事。網絡

　　在研讀aphago工做原理前建議先學完david silver的RL基礎課，這樣讀起來纔有意思。app

文章分了五個小塊，分別是：dom

supervised learning of policy networks異步

reinforcement learning of policy networks分佈式

reinforcement learning of value networks優化

searching with policy and value networks人工智能

evaluating the playing strength of AlphaGOlua

若是用一句話說明白alphaGO是怎麼工做的，那應該是「combines the policy and value network with MCTS」.spa

　咱們先從最基礎的policy approximator引入。supervised learning of policy network 是一個由CNN+rectifier_nonlinearities+softmax組成的十三層的神經網絡，輸入the board state representation也就是當前的棋盤圖像(用s表示)，輸出a probability distribution over all legal moves也就是選擇全部符合規則的下一步走法中每一種的可能性(用a表示)。訓練數據集來自KGS GO Sever即庫存的人類大師對局，採用隨機梯度上升法（SGA）進行訓練優化————。線程

由於對SLpolicynetwork太笨重不滿意，deepmind又訓練了rollout policy，a linear softmax of small pattern features with weight pai，它極度快速，延時只有2μs，而policy network須要3ms。

有了第一階段的嘗試，咱們把policy gradient拿來用，進入第二階段。用p_ρ表示咱們的RL policy network，其結構與p_σ 相同，參數初始化爲ρ=σ，訓練數據經過self play產生。wew play games between the current p_ρ and a random selected previous iteration of p_ρ，也就是說經過當前迭代版本的p_ρ和隨機選擇的先前迭代版本的p_ρ 之間對局產生訓練數據，而後用SGA方法優化p_{ρ ——————。}

　接下來進入training pipeline的最後階段，以position evaluation爲核心。在此以前咱們已經把policy network作好了，也就是準備好了"策略"，而後須要有一套對當前棋局的評估器，來評估從當前棋局出發依照策略p最後結果輸仍是贏。estimating a value function v^p(s) that predicts the outcome from position s of game played by using policy p for both players。v^p(s) = E[z_t|s_t=s,a_t...T ~p] 。

We approximate the value function using a value network v_θ(s) with weight θ , v_θ(s) ≈ v^p_ρ(s) ≈ v*(s) 。v_θ(s) 結構和p_ρ(s)大體類似，只是輸出爲一個單純的迴歸。訓練時以state-outcome pairs (s,z)的regression做數據集，經過SGD最小化v_θ(s)和corresponding outcome z之間的MSE來優化參數——————。

到如今準備好了策略policy和價值評估器value network，是時候藉助蒙特卡洛樹搜索（MCTS）對全局建模了。

AlphaGO 用MCTS將policy network 和value network結合到一塊兒，經過MCTS的前向搜索選擇下一步的行爲(就是下一步棋落到哪)。"MCTS with policy and value networks"包含四個核心操做，分別是select，expansion，evaluation，backup。

搜索樹的每條邊(s,a)存儲着action value Q(s,a)，visit count N(s,a)和prior probability P(s,a)，每一個節點是棋局的state。從樹根state開始，經過simulation即模擬對局（沒有備份操做的完整對局episode）遍歷這棵樹。對於任意simulation的每一個時間步，基於a_t= argmax( Q(s_t,a) + u(s_t,a) )選擇action，其中。對於每一場simulation————遍歷走到葉子節點s_L時若是還沒到simulation的END便進行expansion操做向下擴展。P(s,a)=p_σ(a|s)。到達當前simulation的END時，經過V(s_L)來評估葉子節點——V(s_L) = (1- λ )v_θ(s_L) + λz_L。v_θ(s_L)用了value network，z_L是基於rollout policy p_π 一直下到結束的outcome。回看，backup，更新這一場simulation所走過的全部邊。每條邊的visit count和mean evaluation對從它這兒走過的全部simulations進行累加，sⁱ _L 表示第i次simulation（總共作了n次simulations）的葉子節點，1(s,a,i)表示第i次simulation的時候(s,a)這條邊是否被走過。

　　search作完以後，從根結點位置選擇訪問次數最多的move。至此咱們的AlphaGO就正式出道了，這時我彷彿聽到上天對它說了句——開始你牛逼閃閃發光的一年吧！

　　另外deepmind還提到了他們在研究中發現的一個有意思現象：SL policy network比RL policy network表現好，而RL value network 比SL policy network 表現好，做者說「persumably because humans select a diverse beam of promising moves,whereas RL optimizes for the single best move」哈哈哈。

　　爲了培(xun)養(lian)AlphaGO，他的父親（deepmind）不惜砸重金，採用異步MCTS，40個搜索線程在48個CPU上作simulations，用8個並行計算GPU訓練神經網絡。另外deepmind也嘗試了分佈式MCTS，使用了40個搜索線程，1202個CPU，176個GPU。

　　「evaluating the playing strength of AlphaGO」這一小段我不想說了，王婆賣瓜自賣自詡，誰愛看本身去看吧。

　　注：對於具體method我沒作太多分享，但之後想寫了可能還會補充一些，我以爲alphaGO的突破之處在於成功用MCTS把policy network和value network結合到了一塊兒。再厲害它也是在前人的基礎上作的，並非本身另闢新路，技術的發展一向如此。至於本文爲啥中英文混體，是由於我思前想後拿不定主意一些地方該怎麼用純中文來表達，這些地方英文來表達是最能傳達本意的，因此直接從論文上擼下來了，莫怪莫怪。最後建議本身讀一下《master the game of go with deep neaural network and tree search》的原文。連接：https://www.nature.com/articles/nature16961.pdf

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。