強化學習基礎 | (2) 馬爾科夫決策過程(MDP)

時間 2020-12-29

標籤 Lee Hung-yi強化學習简体版

原文原文鏈接

原文地址作者：劉建平在模型基礎中，我們講到了強化學習模型的8個基本要素。但是僅憑這些要素還是無法使用強化學習來幫助我們解決問題的, 在講到模型訓練前，模型的簡化也很重要，這一篇主要就是講如何利用馬爾科夫決策過程(Markov Decision Process，以下簡稱MDP)來簡化強化學習的建模。文章目錄 1. 強化學習引入MDP的原因 2. MDP的價值函數與貝爾曼方程 3. 狀態價值函數

>>阅读原文<<