強化學習(RLAI)讀書筆記第六章差分學習(TD-learning)

第六章:Temporal-Difference Learning TD-learning算法是強化學習中一個獨具特色而又核心的想法,結合了蒙特卡洛算法和動態規劃的想法。和MC一樣不需要環境模型直接從sample裏學習,也像DP一樣使用bootstrap通過別的狀態值的估計更新當前狀態值。首先也關注的是給定策略進行prediction或者叫policy evaluation。對於control(找到
相關文章
相關標籤/搜索