時序差分學習(Temporal-Difference Learning)

時序差分學習(Temporal-Difference Learning)結合了動態規劃和蒙特卡洛方法,是強化學習的核心思想。算法 蒙特卡洛的方法是模擬(或者經歷)一段序列,在序列結束後,根據序列上各個狀態的價值,來估計狀態價值。  時序差分學習是模擬(或者經歷)一段序列,每行動一步(或者幾步),根據新狀態的價值,而後估計執行前的狀態價值。  能夠認爲蒙特卡洛的方法是最大步數的時序差分學習。數據結構
相關文章
相關標籤/搜索