Chapter 6 Temporal-Difference Learning

TD可以根據episode的一部分來更新,不必要等到最終結果出來,即不必等到一個episode結束,這是跟上一章介紹的Monte Carlo方法最大的區別 6.1 TD Prediction Monte Carlo方法必須要等到episode的結束,才能更新 V(St) V ( S t ) TD 方法則只需要等到下一個時間步,就可以做更新了 對一個every-visit Monte Carlo m
相關文章
相關標籤/搜索