機器學習方法篇(27)------時序差分方法

時間 2019-12-05

標籤機器學習方法時序差分方法简体版

原文原文鏈接

● 每週一言智商決定深度，而情商決定高度。web 導語前面分別講解了加強學習當中的動態規劃方法和蒙特卡洛方法的算法思想。在實際問題當中，DP一般沒法或者很可貴到問題的真實模型結構，MC則很難估算一次行動的最終價值獎勵。算法時序差分方法結合了動態規劃和蒙特卡洛方法的優勢，是強化學習的核心思想。那麼，TD的算法思想是什麼？機器學習時序差分方法前文咱們瞭解了MC是每次對樣本進行完整的採樣模擬，

>>阅读原文<<