強化學習專題筆記(一) 強化學習基礎

時間 2021-01-08

原文原文鏈接

一、長期回報對於問題的簡化，採用理想的MDP，簡化問題到具有馬爾科夫性，對於馬爾科夫決策過程而言，在理想狀態下，每一個行動都要爲最終的目標最大化長期回報而努力。 max ⁡ ∑ t r t \max\sum_{t}{r_t} maxt∑rt 但是很多情況下，仿真的時間維度較大，步數較多，甚至可以無限循環下去，這樣的情況下我們需要引入一個可以和收斂的無窮數列，來替代我們最原始的長期回報公式。

>>阅读原文<<