深度強化學習2——馬爾科夫決策過程（MDP）

時間 2020-12-29

原文原文鏈接

本文講解思路從馬科夫過程（MP) 到馬爾科夫獎勵過程（MRP）最後到馬爾科夫決策過程（MDP）。首先我們要了解馬爾科夫性，在上一章1.3我們也提到，當前狀態包含了對未來預測所需要的有用信息，過去信息對未來預測不重要，該就滿足了馬爾科夫性，嚴格來說，就是某一狀態信息包含了所有相關的歷史，只要當前狀態可知，所有的歷史信息都不再需要，當前狀態就可以決定未來，則認爲該狀態具有馬爾科夫性。下面用公式來描述

>>阅读原文<<