機器學習(二十五)——強化學習(2)

https://antkillerfarm.github.io/ 折扣未來獎勵(Discounted Future Reward) 爲了獲得更多的獎勵,我們往往不能只看當前獎勵,更要看將來的獎勵。 給定一個MDP週期,總的獎勵顯然爲: R=r1+r2+⋯+rn R = r 1 + r 2 + ⋯ + r n 那麼,從當前時間t開始,總的將來的獎勵爲: Rt=rt+rt+1+⋯+rn R t = r
相關文章
相關標籤/搜索