L2: Markov Decision學習筆記

前言 本節主要講述了MP、MRP、MDP的基本概念,並介紹了Bellman方程在計算狀態/動作值函數中的應用,進一步說明何爲最優策略,最後介紹了MDP的幾種擴展形式,例如POMDP。 MP 馬爾科夫過程具有無記憶性,MP可以用元組<S,P>來表示,S代表狀態,P表示狀態之間的轉移矩陣, 從示例來看,MP僅含有S、P。 MRP 相比MP,MRP多了2個維度,其表示爲 <S, P, R, Y>, R表
相關文章
相關標籤/搜索