強化學習-An introduction之 馬爾科夫決策過程(MDP)個人筆記

Chapter 3 馬爾科夫決策過程(MDP) MDP說白了就是面對不同的狀態,採取一定行動後,有一定的概率到達某個狀態。 1 state, action 最重要的兩個東西就是狀態和行動,強化學習說簡單點就是面對不同的state採取怎樣的action 2 p p characterize the environment’s dynamics. 3 G 4 v, q 對 π π 的 v : 對 π
相關文章
相關標籤/搜索