強化學習導論 | 第七章 n步時序差分算法

前面講到了MC(蒙特卡洛方法)和TD(0)算法。MC方式是根據採樣到的經驗軌跡實際得到的獎勵來更新軌跡中出現的狀態的價值,即在每個軌跡結束之後更新。TD(0)方法中某個狀態的價值是根據從當前狀態走一步的即時獎勵和後續狀態的估計價值相加得來的,即在執行一個動作之後就更新價值。 那麼,能否將MC和TD(0)結合呢?基於這個想法,就產生了n步時序差分算法。即在某個狀態的價值等於在當前狀態下走n步得到的獎
相關文章
相關標籤/搜索