馬爾可夫決策過程詳解

文章目錄 0 寫在前面 1 簡介 2 馬爾可夫屬性 3 State Transition Matrix 4 MP 5 示例:Student Markov Chain 6 Markov Reward Process 7 Return 8 爲什麼需要衰減? 9 MRP的值函數 10 貝爾曼方程 11 貝爾曼方程的數學表示 12 MDP 13 Policy 14 MDP的值函數 15 最優值函數 16
相關文章
相關標籤/搜索