強化學習系列之四:模型無關的策略學習

時間 2021-01-19

原文原文鏈接

文章目錄 [隱藏] 1. 一些前置話題 2. MC Control 3. SARSA 4. Q Learning 5. 做點實驗 5.1. 算法穩定性 5.2. 貪婪策略的影響 5.3. 不同算法的效果對比 6. 總結強化學習系列系列文章模型無關的策略學習，是在不知道馬爾科夫決策過程的情況下學習到最優策略。模型無關的策略學習主要有三種算法: MC Control, SARSA 和

>>阅读原文<<