Reinforcement Learning: Model-free control

On-policy Monte-Carlo Control On-Policy Temporal-Difference Learning Off-Policy Learning 使用Monte-Carlo對off-policy進行更新 使用TD對off-policy進行更新 使用Q-learning進行off-policy的更新 上一節講到的是對未知MDP的value function進行估計,這
相關文章
相關標籤/搜索