DQN(Deep Reiforcement Learning) 發展歷程（四）

時間 2019-12-06

標籤 dqn deep reiforcement learning 發展歷程简体版

原文原文鏈接

目錄html

DQN發展歷程(一)學習

DQN發展歷程(二)htm

DQN發展歷程(三)blog

DQN發展歷程(四)get

DQN發展歷程(五)it

不基於模型的控制

選取動做的方法

貪婪法，每次控制都選擇狀態值最大的動做，容易局部收斂，找不到全局最優。
引入 epsilon-greedy，按 epsilon 的機率隨機選擇一個動做，按 1 - epsilon 的機率使用貪婪法，選擇狀態值最大的動做

在策略上的學習（on-policy）

表明方法：SARSA
每次按 epsilon-greedy 更新策略後，也按此方法更新後的策略選擇下一步的動做。

不在策略上的學習（off-policy）

表明方法：Q-learning
更新策略和 SARSA 不一樣，每次直接按照貪婪法選擇最大狀態值來更新狀態，可是選擇動做時仍然使用 epsilon-greedy

參考

david siver 課程class

https://home.cnblogs.com/u/pinard/方法

相關文章

相關標籤/搜索

卷積神經網絡發展歷程

Hibernate教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<