強化學習導論 第六章 瞬時時間差分法

這一次開第六章,Temporal-Difference 方法,簡稱TD,可以翻譯爲瞬時差分法。 TD方法在強化學習算法中有很重要的地位,因爲它是一個集大成的算法。TD綜合了第五章所說的蒙特卡洛算法和第四章所說的DP算法的特點,既可以從真實經驗序列學習,無需環境模型,又可以根據已得到的估計值來更新新的估計值(bootstrap)。這是目前我們需要在腦海中構建的關於TD的一個基本特徵。 但是雖然TD綜
相關文章
相關標籤/搜索