【強化學習RL】model-free的prediction和control — MC, TD(λ), SARSA, Q-learning等

時間 2020-12-30

原文原文鏈接

本系列強化學習內容來源自對David Silver課程的學習課程鏈接http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html 　　在上一文介紹了RL基礎概念和MDP後，本文介紹了在model-free情況下（即不知道回報Rs和狀態轉移矩陣Pss'），如何進行prediction，即預測當前policy的state-value functi

>>阅读原文<<