深度增強學習David Silver（五）——Model-Free Control

時間 2021-01-12

原文原文鏈接

本節課主要內容： On-Policy Monte-Carlo Control On-Policy Temporal-Difference Learning Off-Policy Learning On-Policy Monte-Carlo Control 上節課講了model-free的預測，這節課講優化控制。回憶一下之前的內容，lecture03講到對於給定模型的MDP，通過V(s)改進策略：

>>阅读原文<<