Dueling DQN 值函數和優勢函數

定義advantage,動作的優勢程度函數 將Q網絡分成兩個通道,一個輸出V,一個輸出A,最後再合起來得到Q Q(s,a) = 狀態的所有動作Q期望 + action-value的優勢程度(思考優勢程度的定義) Q(s,a) = A(s,a) + V(s) 1.值函數V(s) 定義: 狀態s下所有動作價值的期望(矩陣size=1) 2.優勢函數A(s,a) 避免兩個支路直接學習到V(s)=0或者A
相關文章
相關標籤/搜索