《強化學習Sutton》讀書筆記（五）——時序差分學習（Temporal-Difference Learning）

時間 2021-01-12

標籤強化學習简体版

原文原文鏈接

此爲《強化學習》第六章 Temporal-Difference Learning 。時序差分學習 (Temporal-Difference Learning, TD) 是強化學習的核心。TD學習是蒙特卡洛MC法和動態規劃DP法的綜合，它可以像MC那樣，不需要知道環境的全部信息，通過交互就能學習；同時，它也可以像DP那樣，在（其他值函數）估計的基礎上進行估計，從而不需要求解完整個事件(Episod

>>阅读原文<<