時序差分學習

第六章 時序差分學習 若是非要說一個強化學習中最核心而且新奇的方法,那麼時序差分學習毫無疑問就是那種方法。TD方法是蒙特卡洛方法和動態規劃思想的結合。因此TD方法有兩個特色:一是能夠直接從經驗中學習,不須要環境模型;二是TD方法根據其餘的估計來更新估計,也就是自舉。時序差分學習,蒙特卡洛方法和動態規劃三者之間關係的比較是強化學習中貫穿始終的主題。算法 6.1 TD預測 (1)Constant-α
相關文章
相關標籤/搜索