強化學習-An introduction之時序差分（TD Learning）我的筆記

時間 2019-12-04

標籤強化學習 introduction 時序差分 learning 我的筆記简体版

原文原文鏈接

Chapter 6 Temporal-Difference Learning MC方法是經過考慮採樣軌跡，克服了模型未知給策略估計形成的困難，可是它須要在完成一個採樣軌跡後再更新策略的值估計；而以前介紹的基於DP的策略迭代和值迭代算法在每執行一步策略後就進行值函數更新。相比而言，MC方法效率低得多。主要緣由是MC方法沒有利用學習任務的MDP結構。html TD Learning則結合了DP和MC的

>>阅读原文<<