達觀數據劉思鄉:一文詳解AlphaGo原理

摘要 1、圍棋是一個MDPs問題 2、policy iteration如何求解MDPs問題? 3、WHAT and WHY is MonteCarlo method? 4、AlphaGo Zero的強化學習算法 前言 AlphaGo是GoogleDeepMind團隊開發的一個基於深度神經網絡的圍棋人工智能程序,其一共經歷了以下幾次迭代[1]: 馬爾可夫決策過程 一個馬爾可夫決策過程(Markov
相關文章
相關標籤/搜索