深度加強學習David Silver（五）——Model-Free Control

時間 2019-12-11

標籤深度加強學習 david silver model free control 简体版

原文原文鏈接

本節課主要內容：web On-Policy Monte-Carlo Control On-Policy Temporal-Difference Learning Off-Policy Learning On-Policy Monte-Carlo Control 上節課講了model-free的預測，這節課講優化控制。回憶一下以前的內容，lecture03講到對於給定模型的MDP，經過V(s)改進

>>阅读原文<<