David Silver《Reinforcement Learning》課程解讀—— Lecture 4： Model-Free Prediction

時間 2021-01-11

原文原文鏈接

David Silver《Reinforcement Learning》課程解讀—— Lecture 4： Model-Free Prediction DP動態規劃能夠解決已知environment的MDP問題，即已知 S,A,P,R,γ ，根據是否已知policy又將問題劃分爲prediction和control的問題。本質上來說這種known MDP問題已知environment即轉移矩陣與

>>阅读原文<<