Chapter 7 n-step Bootstrapping

核心思想就是在做bootstrapping之前再向前多走幾步 7.1 n-step TD Prediction temporal difference 擴展了n步,這就被稱爲n-step TD methods n-step returns Gt:t+n≐Rt+1+γRt+2+⋯+γn−1Rt+n+γnVt+n−1(St+n) G t : t + n ≐ R t + 1 + γ R t + 2 +
相關文章
相關標籤/搜索