深度強化學習-馬爾科夫決策過程-筆記（二）

時間 2021-01-25

標籤學習筆記強化學習简体版

原文原文鏈接

深度強化學習-MDP 馬爾科夫決策過程馬爾科夫過程 Markov Process(MP) （1）馬爾科夫性質（2）馬爾科夫過程/馬爾科夫鏈馬爾科夫獎勵過程 Markov Reward Process(MRP) 貝爾曼方程的矩陣形式迭代方法計算MRP的價值函數（1）蒙特卡洛算法計算MRP的價值函數（2）動態規劃算法計算MRP的價值函數馬爾科夫決策過程 Markov Decision P

>>阅读原文<<