強化學習-An introduction之 時序差分(TD Learning) 個人筆記

Chapter 6 Temporal-Difference Learning MC方法是通過考慮採樣軌跡,克服了模型未知給策略估計造成的困難,但是它需要在完成一個採樣軌跡後再更新策略的值估計;而之前介紹的基於DP的策略迭代和值迭代算法在每執行一步策略後就進行值函數更新。相比而言,MC方法效率低得多。主要原因是MC方法沒有利用學習任務的MDP結構。 TD Learning則結合了DP和MC的思想,能
相關文章
相關標籤/搜索