RL（六）時序差分法（TD）

時間 2021-01-13

原文原文鏈接

目錄 1、時序差分概述 2、TD和蒙特卡羅算法的不同 3、TD(λ) 4、時序差分的控制問題求解 5、總結 1、時序差分概述前面我們講了基於模型的動態規劃和不基於模型的蒙特卡羅算法，他們都有各自的優點和缺點。動態規劃能夠很好的基於模型來求解強化學習，但是現實問題中很少能提前知道這個模型；蒙特卡羅算法能夠一定程度上結局無模型的強化學習任務，但是它必須在擁有完整的序列的前提下才能得到好的效果，這在現

>>阅读原文<<