DQN發展歷程(一)學習
DQN發展歷程(二)htm
DQN發展歷程(三)blog
DQN發展歷程(四)get
DQN發展歷程(五)it
不基於模型的控制
選取動做的方法
- 貪婪法,每次控制都選擇狀態值最大的動做,容易局部收斂,找不到全局最優。
- 引入 epsilon-greedy,按 epsilon 的機率隨機選擇一個動做,按 1 - epsilon 的機率使用貪婪法,選擇狀態值最大的動做
在策略上的學習(on-policy)
- 表明方法:SARSA
- 每次按 epsilon-greedy 更新策略後,也按此方法更新後的策略選擇下一步的動做。
不在策略上的學習(off-policy)
- 表明方法:Q-learning
- 更新策略和 SARSA 不一樣,每次直接按照貪婪法選擇最大狀態值來更新狀態,可是選擇動做時仍然使用 epsilon-greedy
參考
david siver 課程class
https://home.cnblogs.com/u/pinard/方法