強化學習實例9:時序差分法(Temporal Difference)

時序差分法(Temporal Difference,簡稱TD法),是一種結合了蒙特卡羅法和動態規劃法的方法。python 經過蒙特卡羅法獲得dom 經過TD法獲得3d 其中稱爲TD目標code TD使用了當前回報和下一時刻的價值估計,因此總體系統沒有達到最優,這樣的估計是有誤差的,但方差減小。orm 而MC使用完整的採樣獲得了長期回報值,因此估計誤差小,但方差大。blog 代碼以下:it # TD
相關文章
相關標籤/搜索