深度強化學習2——馬爾科夫決策過程(MDP)

本文講解思路從馬科夫過程(MP) 到馬爾科夫獎勵過程(MRP)最後到馬爾科夫決策過程(MDP)。 首先我們要了解馬爾科夫性,在上一章1.3我們也提到,當前狀態包含了對未來預測所需要的有用信息,過去信息對未來預測不重要,該就滿足了馬爾科夫性,嚴格來說,就是某一狀態信息包含了所有相關的歷史,只要當前狀態可知,所有的歷史信息都不再需要,當前狀態就可以決定未來,則認爲該狀態具有馬爾科夫性。下面用公式來描述
相關文章
相關標籤/搜索