強化學習導論 | 第三章 有限馬爾科夫決策過程

本章將講解有限馬爾科夫決策過程中的有關反饋、策略和價值函數的內容。這個問題也是評估性反饋(evaluative feedback),但和上一章中講到的多臂賭博機不同,多臂賭博機僅包含一個狀態。在包含多個狀態的情況下,我們需要考慮在不同狀態下選擇不同的動作。 文章目錄 3.1 agent和環境的交互 3.2 馬爾科夫性質 3.3 強化學習目標 3.4 策略和值函數 3.5 貝爾曼方程(Bellman
相關文章
相關標籤/搜索