Double-DQN算法target網絡和predict網絡區別

Double-DQN框架主要包括以下幾部分: 構建eval神經網絡和target神經網絡模塊 訓練eval神經網絡模塊 更新target神經網絡模塊 根據eval值選擇動作模塊。 爲了將動作選擇和價值估計進行解耦,我們有了Double-DQN方法。在Double-DQN中,在計算Q實際值時,動作選擇由eval-net得到,而價值估計由target-net得到。此時,損失函數變爲: DQN算法圖如下
相關文章
相關標籤/搜索