時序差分學習(Temporal-Difference Learning)

時間 2019-12-09

標籤時序差分學習 temporal difference learning 简体版

原文原文鏈接

時序差分學習(Temporal-Difference Learning)結合了動態規劃和蒙特卡洛方法，是強化學習的核心思想。算法蒙特卡洛的方法是模擬（或者經歷）一段序列，在序列結束後，根據序列上各個狀態的價值，來估計狀態價值。時序差分學習是模擬（或者經歷）一段序列，每行動一步（或者幾步），根據新狀態的價值，而後估計執行前的狀態價值。能夠認爲蒙特卡洛的方法是最大步數的時序差分學習。數據結構

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。