論文｜ AlphaGo Zero 的模型和算法

時間 2021-01-11

原文原文鏈接

上一篇文章簡單學習了 AlphaGo Zero 的特點： AlphaGo Zero 初探 http://www.jianshu.com/u/7b67af2e61b3 算法採用自對弈強化學習，不再需要學習人類棋譜數據。模型由原來的兩個模型變成只使用一個神經網絡。今天來學習一下細節。論文： Mastering the game of Go without human knowledge 先將圍棋

>>阅读原文<<