達觀數據劉思鄉：一文詳解AlphaGo原理

時間 2021-01-13

原文原文鏈接

摘要 1、圍棋是一個MDPs問題 2、policy iteration如何求解MDPs問題？ 3、WHAT and WHY is MonteCarlo method？ 4、AlphaGo Zero的強化學習算法前言 AlphaGo是GoogleDeepMind團隊開發的一個基於深度神經網絡的圍棋人工智能程序，其一共經歷了以下幾次迭代[1]：馬爾可夫決策過程一個馬爾可夫決策過程（Markov

>>阅读原文<<