強化學習導論 | 第三章有限馬爾科夫決策過程

時間 2021-01-13

原文原文鏈接

本章將講解有限馬爾科夫決策過程中的有關反饋、策略和價值函數的內容。這個問題也是評估性反饋（evaluative feedback），但和上一章中講到的多臂賭博機不同，多臂賭博機僅包含一個狀態。在包含多個狀態的情況下，我們需要考慮在不同狀態下選擇不同的動作。文章目錄 3.1 agent和環境的交互 3.2 馬爾科夫性質 3.3 強化學習目標 3.4 策略和值函數 3.5 貝爾曼方程（Bellman

>>阅读原文<<