《強化學習Sutton》讀書筆記(三)——動態規劃(Dynamic Programming)

此爲《強化學習》第四章。web 策略評估 策略評估 (Policy Evaluation) 首先考慮已知策略 π(a|s) π ( a | s ) ,求解 vπ(s) v π ( s ) 。根據上一節中狀態值函數的Bellman等式,有 算法 vπ(s)=∑aπ(a|s)∑s′∑rp(s′,r|s,a)[r+γvπ(s′)] v π ( s ) = ∑ a π ( a | s ) ∑ s ′ ∑
相關文章
相關標籤/搜索