強化學習（RLAI）讀書筆記第七章n步自舉（n-step Bootstrapping）

時間 2021-01-04

標籤強化學習简体版

原文原文鏈接

第七章：n-step Bootstrapping 這一章中我們把蒙特卡洛算法(MC)和一步差分算法(one-step TD)統一起來。MC算法和一步TD算法都不可能永遠是最好的。這兩個方法都是比較極端的形式，可能使用它們中間形式會更好一些。另一個看待n步TD算法的優勢的角度是它解決了固定時間步驟的缺點。比如一步TD算法固定了每次選擇動作和更新值的時間間隔。很多應用中想要把發生的改變快速更新到值函數

>>阅读原文<<