L2: Markov Decision學習筆記

時間 2021-01-10

原文原文鏈接

前言本節主要講述了MP、MRP、MDP的基本概念，並介紹了Bellman方程在計算狀態/動作值函數中的應用，進一步說明何爲最優策略，最後介紹了MDP的幾種擴展形式，例如POMDP。 MP 馬爾科夫過程具有無記憶性，MP可以用元組<S,P>來表示，S代表狀態，P表示狀態之間的轉移矩陣, 從示例來看，MP僅含有S、P。 MRP 相比MP，MRP多了2個維度，其表示爲 <S, P, R, Y>, R表

>>阅读原文<<