強化學習導論第六章瞬時時間差分法

時間 2021-01-10

原文原文鏈接

這一次開第六章，Temporal-Difference 方法，簡稱TD，可以翻譯爲瞬時差分法。 TD方法在強化學習算法中有很重要的地位，因爲它是一個集大成的算法。TD綜合了第五章所說的蒙特卡洛算法和第四章所說的DP算法的特點，既可以從真實經驗序列學習，無需環境模型，又可以根據已得到的估計值來更新新的估計值（bootstrap）。這是目前我們需要在腦海中構建的關於TD的一個基本特徵。但是雖然TD綜

>>阅读原文<<