強化學習（RLAI）讀書筆記第六章差分學習（TD-learning）

時間 2020-12-30

標籤強化學習简体版

原文原文鏈接

第六章：Temporal-Difference Learning TD-learning算法是強化學習中一個獨具特色而又核心的想法，結合了蒙特卡洛算法和動態規劃的想法。和MC一樣不需要環境模型直接從sample裏學習，也像DP一樣使用bootstrap通過別的狀態值的估計更新當前狀態值。首先也關注的是給定策略進行prediction或者叫policy evaluation。對於control（找到

>>阅读原文<<