[強化學習-3] Devil 課程第二章解析+ 學生馬爾可夫決策過程代碼

馬爾可夫決策過程(MDP) 一:介紹 馬爾可夫決策過程是用來形式化地描述強化學習中的環境 其中環境是完全可以觀測的 值得注意的是,大部分強化學習問題都可以看作 MDP 問題。 簡單地理解,MDP是用來描述環境的,且 agent 可以觀察到環境的全部信息。也就是說是完全可以觀測。所以 agent的狀態會等於環境的狀態,因此在MDP中會出現action這個概念。 二:馬爾可夫性質 現在或未來的狀態依賴
相關文章
相關標籤/搜索