強化學習 之 蒙特卡洛方法

(1)蒙特卡洛方法是一類廣泛的計算方法,依賴於重複隨機抽樣來獲得數值結果。即基於大數定理的一種數學方法。 (2)用蒙特卡洛方法的時候如果sample出的狀態出現循環,導致永遠無法停止該怎麼處理? 可以根據具體任務和環境檢測重複出現的狀態進行」剪枝「等處理。 (3)蒙特卡洛方法適用環境? 在強化學習問題中,我們可以用馬爾可夫決策過程(MDP)和相關算法找出最優行動值函數,它通過策略迭代和值迭代找出最
相關文章
相關標籤/搜索