Mastering the game of Go with deep neural networks and tree search (AlphaGo)

圍棋遊戲因其巨大的搜索空間以及評估棋盤位置和動作的難度,一直被視爲人工智能經典遊戲中最具挑戰性的遊戲。本文使用value network評估棋盤位置,並使用policy network選擇行爲。這些深度神經網絡是通過人類專家遊戲中的有監督學習和self-play中的強化學習的新穎組合來訓練的。同時,本文還提出一種新的MCTS搜索算法,該算法將蒙特卡洛模擬與價值和策略網絡相結合。 文章目錄 Intr
相關文章
相關標籤/搜索