強化學習-An introduction之時序差分（TD Learning）個人筆記

時間 2020-12-30

標籤強化學習時序差分 TD Learning Sarsa 简体版

原文原文鏈接

Chapter 6 Temporal-Difference Learning MC方法是通過考慮採樣軌跡，克服了模型未知給策略估計造成的困難，但是它需要在完成一個採樣軌跡後再更新策略的值估計；而之前介紹的基於DP的策略迭代和值迭代算法在每執行一步策略後就進行值函數更新。相比而言，MC方法效率低得多。主要原因是MC方法沒有利用學習任務的MDP結構。 TD Learning則結合了DP和MC的思想，能

>>阅读原文<<