Reinforcement Learning——MDP

時間 2020-12-24

原文原文鏈接

幾乎所有的增強學習的問題都可以通過一些方式形式化爲Markov Decision Process，David主講的關於MDP的這部分內容主要闡述了MP、MRP、MDP三種過程的value函數計算及Bellman 方程的迭代過程。一、Markov Process MP是指一系列具有Markov Property的動態過程。 Markov Property：即下一時刻的狀態僅取決於此刻的狀態，大大