David Silver《Reinforcement Learning》課程解讀—— Lecture 4: Model-Free Prediction

David Silver《Reinforcement Learning》課程解讀—— Lecture 4: Model-Free Prediction DP動態規劃能夠解決已知environment的MDP問題,即已知  S,A,P,R,γ ,根據是否已知policy又將問題劃分爲prediction和control的問題。本質上來說這種known MDP問題已知environment即轉移矩陣與
相關文章
相關標籤/搜索