《強化學習導論》中關於帶控制變量的每次決策型方法的理解

從書中前面的介紹中可以看到,G通過加入一個控制變量,來達到降低方法的效果。雖然後面不知道怎麼在推導正式公式的時後沒有看到1-ρ的身影。。。(這裏如果有知道的小夥伴,請留下您的意見)。 對於後面的這個公式來說,我的理解是: 第一:Gt+1:h也是個遞歸,還沒展開。 第二:這個最終結果就類似樹回溯算法,只不過這裏用的是ρ。 這個地方稍微畫以下就可以看出。 不知理解是否到位,還請不吝指教!
相關文章
相關標籤/搜索