《強化學習Sutton》讀書筆記(六)——n步Bootstrapping(n-step Bootstrapping)

此爲《強化學習》第七章 n-step Bootstrapping 。 n n 步Bootstrapping是MC和TD(0)的綜合。隨着對參數 n n 的調整,我們可以看到TD是如何過渡到MC的。而最佳的方法往往就是介於TD和MC之間。 n n 步TD估計 在上一章的TD(0)方法中,我們有 v(St)←v(St)+α(Gt−v(St)) v ( S t ) ← v ( S t ) + α ( G
相關文章
相關標籤/搜索