強化學習實例9：時序差分法（Temporal Difference）

時間 2019-12-06

標籤強化學習實例時序差分 temporal difference 简体版

原文原文鏈接

時序差分法（Temporal Difference，簡稱TD法），是一種結合了蒙特卡羅法和動態規劃法的方法。python 經過蒙特卡羅法獲得dom 經過TD法獲得3d 其中稱爲TD目標code TD使用了當前回報和下一時刻的價值估計，因此總體系統沒有達到最優，這樣的估計是有誤差的，但方差減小。orm 而MC使用完整的採樣獲得了長期回報值，因此估計誤差小，但方差大。blog 代碼以下：it # TD

>>阅读原文<<