強化學習系列之四:模型無關的策略學習

文章目錄 [隱藏] 1. 一些前置話題 2. MC Control 3. SARSA 4. Q Learning 5. 做點實驗 5.1. 算法穩定性 5.2. 貪婪策略的影響 5.3. 不同算法的效果對比 6. 總結 強化學習系列系列文章       模型無關的策略學習,是在不知道馬爾科夫決策過程的情況下學習到最優策略。模型無關的策略學習主要有三種算法: MC Control, SARSA 和
相關文章
相關標籤/搜索