David silver強化學習課程第五課模型無關的控制

時間 2020-12-20

標籤人工智能強化學習简体版

原文原文鏈接

第五課模型無關的控制回顧上節課，主要講了Model-free情況下如何解決預測問題，通過求解某一策略下的值函數評價該策略，主要有蒙特卡洛(MC)和時間差分(TD)兩種方法。本節課主要講Model-free情況下的控制問題，也就是如何找到一個最優策略，同樣的利用到了蒙特卡洛和時間差分兩種方法。本節集中解決Model-free的控制問題，由於缺乏環境信息，因此這是學習(Learning)過程而不

>>阅读原文<<