Double-DQN算法target網絡和predict網絡區別

時間 2021-01-07

原文原文鏈接

Double-DQN框架主要包括以下幾部分：構建eval神經網絡和target神經網絡模塊訓練eval神經網絡模塊更新target神經網絡模塊根據eval值選擇動作模塊。爲了將動作選擇和價值估計進行解耦，我們有了Double-DQN方法。在Double-DQN中，在計算Q實際值時，動作選擇由eval-net得到，而價值估計由target-net得到。此時，損失函數變爲： DQN算法圖如下

>>阅读原文<<