強化學習之蒙特卡洛價值預測

時間 2021-01-12

標籤機器學習強化學習算法人工智能简体版

原文原文鏈接

（1）蒙特卡洛增量更新推導（2）爲什麼蒙特卡洛算法只能用於可分片段的馬爾可夫決策過程？「可分片段"的含義是該馬爾可夫決策過程長度有限，這樣才能計算」總折扣獎勵「，在實際操作中，如果遇到非常長的馬爾可夫鏈或者無限馬爾可夫鏈，會考慮」時序差分學習「。（3）蒙特卡洛特性蒙特卡洛方法：直接從經驗片段進行學習。蒙特卡洛是模型無關的：未知馬爾科夫決策過程的狀態轉移/獎勵。蒙特卡洛從完整的片段中進行

>>阅读原文<<