RL學習筆記-2-馬爾可夫決策過程及表格型方法

1 馬爾可夫過程 Markov Process, MP 一個狀態的下一個狀態只取決於當前的狀態,與當前狀態之前的狀態無關。   2 馬爾可夫獎勵過程 Markov Reward Process, MRP 求解MRPs的迭代方法: 動態規劃 蒙特卡洛方法(通過採樣) TD算法:是動態規劃和蒙特卡洛方法的集合 (1)利用蒙特卡洛方法求解MRP的價值函數: (2)利用動態規劃的方法,一直迭代貝爾曼方程,
相關文章
相關標籤/搜索