強化學習之時間差分方法

時間 2021-01-09

原文原文鏈接

TD 預測：TD(0) 雖然蒙特卡洛 (MC) 預測方法必須等到階段結束時才能更新值函數估值，但是時間差分 (TD) 方法在每個時間步之後都會更新值函數。對於任何固定策略，一步 TD（或 TD(0)）保證會收斂於真狀態值函數，只要步長參數 \alphaα 足夠小。在實踐中，TD 預測的收斂速度比 MC 預測得要快。 TD 預測：動作值 -（在此部分，我們討論了估算動作值的 TD 預測算法。和

>>阅读原文<<