深度增強學習David Silver（二）——馬爾科夫決策過程MDP

時間 2020-12-29

原文原文鏈接

本節課分爲四個部分： Markov Processes（MP） Markov Reward Processes（MRP） Markov Decision Processes（MDP） MDP擴展上節課在講完全可觀察環境的時候有提到MDP，幾乎所有的增強學習問題都可以簡化爲MDP問題。那麼MDP是什麼呢？首先談一下Markov的性質：「The future is independent of th

>>阅读原文<<