Mastering the game of Go with deep neural networks and tree search 概括

  文章投稿於2016年的《Nature》,它是多種計算方法的集合。「價值網絡」評估棋局、「策略網絡」選擇落子,深層神經網絡,由人類專家博弈訓練的監督學習和電腦自我博弈訓練的強化學習,共同構成的一種新型組合。在沒有任何預先搜索的情境下,這些神經網絡能與頂尖水平的、模擬了千萬次隨機自我博弈的蒙特卡洛樹搜索程序下圍棋。這篇文章提出了一個新的搜索算法,結合了估值和策略網絡的蒙特卡洛模擬算法。   本文引
相關文章
相關標籤/搜索