Mastering the game of Go with deep neural networks and tree search (AlphaGo)

時間 2020-12-24

原文原文鏈接

圍棋遊戲因其巨大的搜索空間以及評估棋盤位置和動作的難度，一直被視爲人工智能經典遊戲中最具挑戰性的遊戲。本文使用value network評估棋盤位置，並使用policy network選擇行爲。這些深度神經網絡是通過人類專家遊戲中的有監督學習和self-play中的強化學習的新穎組合來訓練的。同時，本文還提出一種新的MCTS搜索算法，該算法將蒙特卡洛模擬與價值和策略網絡相結合。文章目錄 Intr