DQN(Deep Reiforcement Learning) 發展歷程(四)

DQN發展歷程(一)學習

DQN發展歷程(二)htm

DQN發展歷程(三)blog

DQN發展歷程(四)get

DQN發展歷程(五)it

不基於模型的控制

選取動做的方法

  • 貪婪法,每次控制都選擇狀態值最大的動做,容易局部收斂,找不到全局最優。
  • 引入 epsilon-greedy,按 epsilon 的機率隨機選擇一個動做,按 1 - epsilon 的機率使用貪婪法,選擇狀態值最大的動做

在策略上的學習(on-policy)

  • 表明方法:SARSA
  • 每次按 epsilon-greedy 更新策略後,也按此方法更新後的策略選擇下一步的動做。

不在策略上的學習(off-policy)

  • 表明方法:Q-learning
  • 更新策略和 SARSA 不一樣,每次直接按照貪婪法選擇最大狀態值來更新狀態,可是選擇動做時仍然使用 epsilon-greedy

參考

david siver 課程class

https://home.cnblogs.com/u/pinard/方法

相關文章
相關標籤/搜索