二、MDP問題

MDP問題 文章目錄 MDP問題 馬爾科夫性與馬爾科夫獎勵 貝爾曼方程 MDP policy 簡單回憶一下上一篇筆記 一、強化學習基礎 中講到的agent與environment交互的過程:當環境environment處於某個狀態state時,智能體agent採取某個動作action,該動作會對environment產生影響,使environment進入下一個狀態state’,並且在狀態改變的時刻
相關文章
相關標籤/搜索