深度增強學習David Silver(五)——Model-Free Control

本節課主要內容: On-Policy Monte-Carlo Control On-Policy Temporal-Difference Learning Off-Policy Learning On-Policy Monte-Carlo Control 上節課講了model-free的預測,這節課講優化控制。 回憶一下之前的內容,lecture03講到對於給定模型的MDP,通過V(s)改進策略:
相關文章
相關標籤/搜索