RL學習筆記-2-馬爾可夫決策過程及表格型方法

時間 2021-01-25

標籤強化學習简体版

原文原文鏈接

1 馬爾可夫過程 Markov Process, MP 一個狀態的下一個狀態只取決於當前的狀態，與當前狀態之前的狀態無關。 2 馬爾可夫獎勵過程 Markov Reward Process, MRP 求解MRPs的迭代方法：動態規劃蒙特卡洛方法（通過採樣） TD算法：是動態規劃和蒙特卡洛方法的集合（1）利用蒙特卡洛方法求解MRP的價值函數：（2）利用動態規劃的方法，一直迭代貝爾曼方程，

>>阅读原文<<