【強化學習RL】model-free的prediction和control — MC, TD(λ), SARSA, Q-learning等

本系列強化學習內容來源自對David Silver課程的學習 課程鏈接http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html   在上一文介紹了RL基礎概念和MDP後,本文介紹了在model-free情況下(即不知道回報Rs和狀態轉移矩陣Pss'),如何進行prediction,即預測當前policy的state-value functi
相關文章
相關標籤/搜索