詳解AlphaGo到AlphaGo Zero!

作者 | 劉思鄉,達觀數據數據挖掘工程師,負責達觀數據推薦系統的開發和部署,對推薦系統在相關行業中的應用有濃厚興趣。 編輯 | Jane 摘要 1、圍棋是一個 MDPs 問題 2、policy iteration 如何求解 MDPs 問題? 3、WHAT and WHY is Monte Carlo method? 4、AlphaGo Zero 的強化學習算法 1.前言 AlphaGo 是 Goo
相關文章
相關標籤/搜索