第二章 馬爾科夫決策過程和貝爾曼等式-強化學習理論學習與代碼實現(強化學習導論第二版)

獲取更多資訊,趕快關注上面的公衆號吧! 本章目錄 第二章 馬爾科夫決策過程和貝爾曼等式 2.1 學習目標 2.2 代理-環境接口 2.3 目標和獎勵 2.4 回報和片段 2.5 片段任務和連續任務的統一表示法 2.6 策略與值函數 2.7 最優策略和最優值函數 2.8 最優與近似 2.9 總結 第二章 馬爾科夫決策過程和貝爾曼等式 在本章中將介紹有限馬爾科夫決策過程(finite MDPS)的形式
相關文章
相關標籤/搜索