基於神經網絡的DQN方法

Deep Q Nework 方法: 訓練數據採用隨機經驗回放。TD回退結合TargetQ網絡預測預估出一個目標量,再用Q網絡預測的現實值,目標量與現實值差值更新兩個網絡的參數集合。 DeepQ Network算法的詳細解釋: 需要明白兩個概念,一個是Q網絡,一個是targrtQ網絡,Q網絡是我們預測網絡,targrt Q網絡可以認爲是我們的訓練網絡,訓練的目標是找到目標Q值:,這裏目標Q值的定義依
相關文章
相關標籤/搜索