機器學習（二十五）——強化學習（2）

時間 2021-01-10

原文原文鏈接

https://antkillerfarm.github.io/ 折扣未來獎勵（Discounted Future Reward）爲了獲得更多的獎勵，我們往往不能只看當前獎勵，更要看將來的獎勵。給定一個MDP週期，總的獎勵顯然爲： R=r1+r2+⋯+rn R = r 1 + r 2 + ⋯ + r n 那麼，從當前時間t開始，總的將來的獎勵爲： Rt=rt+rt+1+⋯+rn R t = r

>>阅读原文<<