深度增強學習David Silver(二)——馬爾科夫決策過程MDP

本節課分爲四個部分: Markov Processes(MP) Markov Reward Processes(MRP) Markov Decision Processes(MDP) MDP擴展 上節課在講完全可觀察環境的時候有提到MDP,幾乎所有的增強學習問題都可以簡化爲MDP問題。那麼MDP是什麼呢?首先談一下Markov的性質:「The future is independent of th
相關文章
相關標籤/搜索