David Silver《Reinforcement Learning》課程解讀—— Lecture 5: Model-Free Control

David Silver《Reinforcement Learning》課程解讀—— Lecture 5: Model-Free Control 上次課談到了在給定policy的情況下求解未知environment的MDP問題,稱之爲Model-Free Prediction問題。本節則是解決未知policy情況下未知environment的MDP問題,也就是Model-Free Control問
相關文章
相關標籤/搜索