深度強化學習6——DQN的改進方法

時間 2020-12-30

原文原文鏈接

在上一篇文章我們提到了DQN還存在的問題： 1）目標Q值的計算是否準確？全部通過max Q來計算有沒有問題？ 2）隨機採樣的方法好嗎？按道理不同樣本的重要性是不一樣的。 3） Q值代表狀態，動作的價值，那麼單獨動作價值的評估會不會更準確？相應的改進方法是Double DQN、Prioritised Replay DQN、Dueling DQN，下面我們將一一介紹這些方法。 Double DQ

>>阅读原文<<