強化學習之蒙特卡洛方法

時間 2021-01-13

標籤機器學習強化學習算法人工智能简体版

原文原文鏈接

（1）蒙特卡洛方法是一類廣泛的計算方法，依賴於重複隨機抽樣來獲得數值結果。即基於大數定理的一種數學方法。（2）用蒙特卡洛方法的時候如果sample出的狀態出現循環，導致永遠無法停止該怎麼處理？可以根據具體任務和環境檢測重複出現的狀態進行」剪枝「等處理。（3）蒙特卡洛方法適用環境？在強化學習問題中，我們可以用馬爾可夫決策過程（MDP）和相關算法找出最優行動值函數，它通過策略迭代和值迭代找出最

>>阅读原文<<