馬爾科夫決策過程

時間 2021-01-11

原文原文鏈接

在強化學習中，馬爾科夫決策過程（Markov decision process, MDP）是對完全可觀測的環境進行描述的，也就是說觀測到的狀態內容完整地決定了決策的需要的特徵。幾乎所有的強化學習問題都可以轉化爲MDP。本講是理解強化學習問題的理論基礎。馬爾科夫過程 Markov Process 馬爾科夫性 Markov Property 某一狀態信息包含了所有相關的歷史，只要當前狀態可知

>>阅读原文<<