Mastering the game of Go with deep neural networks and tree search 概括

時間 2020-12-24

原文原文鏈接

文章投稿於2016年的《Nature》，它是多種計算方法的集合。「價值網絡」評估棋局、「策略網絡」選擇落子，深層神經網絡，由人類專家博弈訓練的監督學習和電腦自我博弈訓練的強化學習，共同構成的一種新型組合。在沒有任何預先搜索的情境下，這些神經網絡能與頂尖水平的、模擬了千萬次隨機自我博弈的蒙特卡洛樹搜索程序下圍棋。這篇文章提出了一個新的搜索算法，結合了估值和策略網絡的蒙特卡洛模擬算法。本文引