Chapter 6 Temporal-Difference Learning

時間 2021-01-13

原文原文鏈接

TD可以根據episode的一部分來更新，不必要等到最終結果出來，即不必等到一個episode結束，這是跟上一章介紹的Monte Carlo方法最大的區別 6.1 TD Prediction Monte Carlo方法必須要等到episode的結束，才能更新 V(St) V ( S t ) TD 方法則只需要等到下一個時間步，就可以做更新了對一個every-visit Monte Carlo m

>>阅读原文<<