第二章馬爾科夫決策過程和貝爾曼等式-強化學習理論學習與代碼實現（強化學習導論第二版）

時間 2021-01-15

原文原文鏈接

獲取更多資訊，趕快關注上面的公衆號吧！本章目錄第二章馬爾科夫決策過程和貝爾曼等式 2.1 學習目標 2.2 代理-環境接口 2.3 目標和獎勵 2.4 回報和片段 2.5 片段任務和連續任務的統一表示法 2.6 策略與值函數 2.7 最優策略和最優值函數 2.8 最優與近似 2.9 總結第二章馬爾科夫決策過程和貝爾曼等式在本章中將介紹有限馬爾科夫決策過程（finite MDPS）的形式

>>阅读原文<<