強化學習 model free 蒙特卡洛增量與 TD(0)

時間 2021-01-13

標籤機器學習简体版

原文原文鏈接

時序差分（TD）學習結合了蒙特卡洛方法和動態規劃的方式：對於蒙特卡洛方法，其迭代的方式是用episode中所有的樣本結果作爲更新的目標，如下所示，Gt代表的是時刻t真實的回報，他是有所有根據樣本得到。對於時序差分TD(0)則是用了其下一步狀態的回報值作爲 bootstrap 代替原樣本的結果：所以對於蒙特卡洛方式，TD(0)只是改變了一個地方，即用下一狀態得到的真實值 + 下一狀態的估計值

>>阅读原文<<