基於神經網絡的DQN方法

時間 2021-01-12

標籤 DQN 增強學習神經網絡算法简体版

原文原文鏈接

Deep Q Nework 方法：訓練數據採用隨機經驗回放。TD回退結合TargetQ網絡預測預估出一個目標量，再用Q網絡預測的現實值，目標量與現實值差值更新兩個網絡的參數集合。 DeepQ Network算法的詳細解釋：需要明白兩個概念，一個是Q網絡，一個是targrtQ網絡，Q網絡是我們預測網絡，targrt Q網絡可以認爲是我們的訓練網絡，訓練的目標是找到目標Q值：，這裏目標Q值的定義依

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。