David silver強化學習課程第五課 模型無關的控制

第五課 模型無關的控制 回顧上節課,主要講了Model-free情況下如何解決預測問題,通過求解某一策略下的值函數評價該策略,主要有蒙特卡洛(MC)和時間差分(TD)兩種方法。本節課主要講Model-free情況下的控制問題,也就是如何找到一個最優策略,同樣的利用到了蒙特卡洛和時間差分兩種方法。 本節集中解決Model-free的控制問題,由於缺乏環境信息,因此這是學習(Learning)過程而不
相關文章
相關標籤/搜索