《強化學習Sutton》讀書筆記(五)——時序差分學習(Temporal-Difference Learning)

此爲《強化學習》第六章 Temporal-Difference Learning 。 時序差分學習 (Temporal-Difference Learning, TD) 是強化學習的核心。TD學習是蒙特卡洛MC法和動態規劃DP法的綜合,它可以像MC那樣,不需要知道環境的全部信息,通過交互就能學習;同時,它也可以像DP那樣,在(其他值函數)估計的基礎上進行估計,從而不需要求解完整個事件(Episod
相關文章
相關標籤/搜索