強化學習 model free 蒙特卡洛增量 與 TD(0)

時序差分(TD)學習結合了蒙特卡洛方法和動態規劃的方式: 對於蒙特卡洛方法,其迭代的方式是用episode中所有的樣本結果作爲更新的目標,如下所示,Gt代表的是時刻t真實的回報,他是有所有根據樣本得到。 對於時序差分TD(0)則是用了其下一步狀態的回報值作爲 bootstrap 代替原樣本的結果: 所以對於蒙特卡洛方式,TD(0)只是改變了一個地方,即用 下一狀態得到的真實值 + 下一狀態的估計值
相關文章
相關標籤/搜索