強化學習之n步自舉法

上一篇:時序差分學習 n-step bootstrapping n 步自舉法 1、n步時序差分預測 我們已經知道TD(0)和MC的回溯圖分別是這樣: 自然會聯想到中間的一些情況有沒有什麼意義呢?比如下方的一些回溯圖: 其實中間的這些過度情況就是n步時序差分方法,它的兩種極端情況就是TD(0)和MC。還是按照原來的思路,先研究預測再考慮控制。想要弄清楚n步時序差分的預測是怎麼實現的,可以從MC和TD
相關文章
相關標籤/搜索