馬爾可夫決策過程詳解

時間 2020-12-30

標籤強化學習简体版

原文原文鏈接

文章目錄 0 寫在前面 1 簡介 2 馬爾可夫屬性 3 State Transition Matrix 4 MP 5 示例：Student Markov Chain 6 Markov Reward Process 7 Return 8 爲什麼需要衰減？ 9 MRP的值函數 10 貝爾曼方程 11 貝爾曼方程的數學表示 12 MDP 13 Policy 14 MDP的值函數 15 最優值函數 16

>>阅读原文<<