論文 | AlphaGo Zero 的模型和算法

上一篇文章簡單學習了 AlphaGo Zero 的特點: AlphaGo Zero 初探 http://www.jianshu.com/u/7b67af2e61b3 算法採用自對弈強化學習,不再需要學習人類棋譜數據。 模型由原來的兩個模型變成只使用一個神經網絡。 今天來學習一下細節。 論文: Mastering the game of Go without human knowledge 先將圍棋
相關文章
相關標籤/搜索