深度強化學習-馬爾科夫決策過程-筆記(二)

深度強化學習-MDP 馬爾科夫決策過程 馬爾科夫過程 Markov Process(MP) (1)馬爾科夫性質 (2)馬爾科夫過程/馬爾科夫鏈 馬爾科夫獎勵過程 Markov Reward Process(MRP) 貝爾曼方程的矩陣形式 迭代方法計算MRP的價值函數 (1)蒙特卡洛算法計算MRP的價值函數 (2)動態規劃算法計算MRP的價值函數 馬爾科夫決策過程 Markov Decision P
相關文章
相關標籤/搜索