深度強化學習6——DQN的改進方法

在上一篇文章我們提到了DQN還存在的問題: 1) 目標Q值的計算是否準確?全部通過max Q來計算有沒有問題? 2) 隨機採樣的方法好嗎?按道理不同樣本的重要性是不一樣的。 3) Q值代表狀態,動作的價值,那麼單獨動作價值的評估會不會更準確? 相應的改進方法是Double DQN、Prioritised Replay DQN、Dueling DQN,下面我們將一一介紹這些方法。 Double DQ
相關文章
相關標籤/搜索