強化學習/動態規劃:貝爾曼方程的解讀 Bellman Equation

前言: 讀書《Reinforcement Learning: An Introduction Second Edition》,讀到第三章有限馬爾科夫決策過程MDP中,提到了貝爾曼方程的理解。一開始我是有點懵逼的,現在看懂了其意思,在這裏解釋一下。 本文講解 v π ( s ) = E π [ G t ∣ S t = s ] = E π [ R t + 1 + γ G t + 1 ∣ S t = s
相關文章
相關標籤/搜索