《強化學習導論》中關於帶控制變量的每次決策型方法的理解

時間 2021-01-20

標籤 Reinforcement Learning 強化學習 reinforcement learning 機器學習帶控制變量的決策型方法 n步方法简体版

原文原文鏈接

從書中前面的介紹中可以看到，G通過加入一個控制變量，來達到降低方法的效果。雖然後面不知道怎麼在推導正式公式的時後沒有看到1-ρ的身影。。。（這裏如果有知道的小夥伴，請留下您的意見）。對於後面的這個公式來說，我的理解是：第一：Gt+1:h也是個遞歸，還沒展開。第二：這個最終結果就類似樹回溯算法，只不過這裏用的是ρ。這個地方稍微畫以下就可以看出。不知理解是否到位，還請不吝指教！

>>阅读原文<<