強化學習-An introduction之 時序差分(TD Learning) 我的筆記

Chapter 6 Temporal-Difference Learning MC方法是經過考慮採樣軌跡,克服了模型未知給策略估計形成的困難,可是它須要在完成一個採樣軌跡後再更新策略的值估計;而以前介紹的基於DP的策略迭代和值迭代算法在每執行一步策略後就進行值函數更新。相比而言,MC方法效率低得多。主要緣由是MC方法沒有利用學習任務的MDP結構。html TD Learning則結合了DP和MC的
相關文章
相關標籤/搜索