深度加強學習David Silver(五)——Model-Free Control

本節課主要內容:web On-Policy Monte-Carlo Control On-Policy Temporal-Difference Learning Off-Policy Learning On-Policy Monte-Carlo Control 上節課講了model-free的預測,這節課講優化控制。 回憶一下以前的內容,lecture03講到對於給定模型的MDP,經過V(s)改進
相關文章
相關標籤/搜索