馬爾科夫決策過程

在強化學習中,馬爾科夫決策過程(Markov decision process, MDP)是對完全可觀測的環境進行描述的,也就是說觀測到的狀態內容完整地決定了決策的需要的特徵。幾乎所有的強化學習問題都可以轉化爲MDP。本講是理解強化學習問題的理論基礎。   馬爾科夫過程 Markov Process   馬爾科夫性 Markov Property 某一狀態信息包含了所有相關的歷史,只要當前狀態可知
相關文章
相關標籤/搜索