二、MDP問題

時間 2020-12-23

標籤深度強化學習強化學習简体版

原文原文鏈接

MDP問題文章目錄 MDP問題馬爾科夫性與馬爾科夫獎勵貝爾曼方程 MDP policy 簡單回憶一下上一篇筆記一、強化學習基礎中講到的agent與environment交互的過程：當環境environment處於某個狀態state時，智能體agent採取某個動作action，該動作會對environment產生影響，使environment進入下一個狀態state’,並且在狀態改變的時刻

>>阅读原文<<