詳解AlphaGo到AlphaGo Zero！

時間 2021-07-14

原文原文鏈接

作者 | 劉思鄉，達觀數據數據挖掘工程師，負責達觀數據推薦系統的開發和部署，對推薦系統在相關行業中的應用有濃厚興趣。編輯 | Jane 摘要 1、圍棋是一個 MDPs 問題 2、policy iteration 如何求解 MDPs 問題？ 3、WHAT and WHY is Monte Carlo method？ 4、AlphaGo Zero 的強化學習算法 1.前言 AlphaGo 是 Goo

>>阅读原文<<