[強化學習-3] Devil 課程第二章解析+ 學生馬爾可夫決策過程代碼

時間 2021-07-14

原文原文鏈接

馬爾可夫決策過程（MDP）一：介紹馬爾可夫決策過程是用來形式化地描述強化學習中的環境其中環境是完全可以觀測的值得注意的是，大部分強化學習問題都可以看作 MDP 問題。簡單地理解，MDP是用來描述環境的，且 agent 可以觀察到環境的全部信息。也就是說是完全可以觀測。所以 agent的狀態會等於環境的狀態，因此在MDP中會出現action這個概念。二：馬爾可夫性質現在或未來的狀態依賴

>>阅读原文<<