Dueling DQN:Q=V+A

目錄 相關知識 網絡結構 應用場景 存在的問題 相關知識 DQN算法: 優勢函數(Advantage Function): 網絡結構 和DQN的不同是:在特徵層和輸出層之間的全連接層,分成了兩部分,一部分用於近似state-value V(s),另一部分近似Advantage-Function A(s, a),求和(combine)得到最終的Q(s, a)。 應用場景 如論文所描述,有些場景,環境
相關文章
相關標籤/搜索