Reinforcement Learning——MDP

幾乎所有的增強學習的問題都可以通過一些方式形式化爲Markov Decision Process,David主講的關於MDP的這部分內容主要闡述了MP、MRP、MDP三種過程的value函數計算及Bellman 方程的迭代過程。 一、Markov Process MP是指一系列具有Markov Property的動態過程。 Markov Property: 即下一時刻的狀態僅取決於此刻的狀態,大大
相關文章
相關標籤/搜索