David silver 強化學習公開課筆記(二):MP、MRP、MDP

1 引言 1.1 Markov 的性質 正如上一節課提到的,Markov 狀態表示當前的狀態包括了歷史所有的信息,也就是給定當前狀態,未來和歷史是獨立的。通俗的說就是未來只和現在有關,和過去是沒有關係的!其實也不能說和過去是沒有關係,而是現在狀態包括了所有的歷史。有點繞。。還是看下面的定義式: 所有的 RL 的問題都能表示爲一個 MDP。關於什麼是 MDP,下面再說。 1.2 狀態轉移矩陣  從狀
相關文章
相關標籤/搜索