強化學習專題筆記(一) 強化學習基礎

一、長期回報 對於問題的簡化,採用理想的MDP,簡化問題到具有馬爾科夫性,對於馬爾科夫決策過程而言,在理想狀態下,每一個行動都要爲最終的目標最大化長期回報 而努力。 max ⁡ ∑ t r t \max\sum_{t}{r_t} maxt∑​rt​ 但是很多情況下,仿真的時間維度較大,步數較多,甚至可以無限循環下去,這樣的情況下我們需要引入一個可以和收斂的無窮數列,來替代我們最原始的長期回報公式。
相關文章
相關標籤/搜索