強化學習之時間差分方法

TD 預測:TD(0) 雖然蒙特卡洛 (MC) 預測方法必須等到階段結束時才能更新值函數估值,但是時間差分 (TD) 方法在每個時間步之後都會更新值函數。 對於任何固定策略,一步 TD(或 TD(0))保證會收斂於真狀態值函數,只要步長參數 \alphaα 足夠小。 在實踐中,TD 預測的收斂速度比 MC 預測得要快。 TD 預測:動作值 -(在此部分,我們討論了估算動作值的 TD 預測算法。和
相關文章
相關標籤/搜索