強化學習 之 蒙特卡洛價值預測

(1)蒙特卡洛增量更新推導 (2)爲什麼蒙特卡洛算法只能用於可分片段的馬爾可夫決策過程? 「可分片段"的含義是該馬爾可夫決策過程長度有限,這樣才能計算」總折扣獎勵「,在實際操作中,如果遇到非常長的馬爾可夫鏈或者無限馬爾可夫鏈,會考慮」時序差分學習「。 (3)蒙特卡洛特性 蒙特卡洛方法:直接從經驗片段進行學習。 蒙特卡洛是模型無關的:未知馬爾科夫決策過程的狀態轉移/獎勵。 蒙特卡洛從完整的片段中進行
相關文章
相關標籤/搜索