強化學習-An introduction之馬爾科夫決策過程（MDP）個人筆記

時間 2020-12-29

標籤強化學習馬爾科夫決策過程 MDP 简体版

原文原文鏈接

Chapter 3 馬爾科夫決策過程（MDP） MDP說白了就是面對不同的狀態，採取一定行動後，有一定的概率到達某個狀態。 1 state, action 最重要的兩個東西就是狀態和行動，強化學習說簡單點就是面對不同的state採取怎樣的action 2 p p characterize the environment’s dynamics. 3 G 4 v, q 對 π π 的 v : 對 π

>>阅读原文<<