強化學習(RLAI)讀書筆記第七章n步自舉(n-step Bootstrapping)

第七章:n-step Bootstrapping 這一章中我們把蒙特卡洛算法(MC)和一步差分算法(one-step TD)統一起來。MC算法和一步TD算法都不可能永遠是最好的。這兩個方法都是比較極端的形式,可能使用它們中間形式會更好一些。另一個看待n步TD算法的優勢的角度是它解決了固定時間步驟的缺點。比如一步TD算法固定了每次選擇動作和更新值的時間間隔。很多應用中想要把發生的改變快速更新到值函數
相關文章
相關標籤/搜索