強化學習 6.1

第6章 時間差異學習 如果必須將一個想法確定爲強化學習的核心和新穎,那麼毫無疑問它將是時間差異(TD)學習。 TD學習是蒙特卡羅思想和動態規劃(DP)思想的結合。與蒙特卡羅方法一樣,TD方法可以直接從原始體驗中學習,而無需環境動態模型。與DP一樣,TD方法部分基於其他學習估計更新估計,而無需等待最終結果(它們是自舉)。 TD,DP和蒙特卡羅方法之間的關係是強化學習理論中反覆出現的主題;本章是我們探
相關文章
相關標籤/搜索