機器學習方法篇(27)------時序差分方法

● 每週一言 智商決定深度,而情商決定高度。web 導語 前面分別講解了加強學習當中的動態規劃方法和蒙特卡洛方法的算法思想。在實際問題當中,DP一般沒法或者很可貴到問題的真實模型結構,MC則很難估算一次行動的最終價值獎勵。算法 時序差分方法結合了動態規劃和蒙特卡洛方法的優勢,是強化學習的核心思想。那麼,TD的算法思想是什麼?機器學習 時序差分方法 前文咱們瞭解了MC是每次對樣本進行完整的採樣模擬,
相關文章
相關標籤/搜索