強化學習基礎 | (2) 馬爾科夫決策過程(MDP)

原文地址 作者:劉建平 在模型基礎中,我們講到了強化學習模型的8個基本要素。但是僅憑這些要素還是無法使用強化學習來幫助我們解決問題的, 在講到模型訓練前,模型的簡化也很重要,這一篇主要就是講如何利用馬爾科夫決策過程(Markov Decision Process,以下簡稱MDP)來簡化強化學習的建模。 文章目錄 1. 強化學習引入MDP的原因 2. MDP的價值函數與貝爾曼方程 3. 狀態價值函數
相關文章
相關標籤/搜索