Dueling DQN 值函數和優勢函數

時間 2021-01-12

原文原文鏈接

定義advantage,動作的優勢程度函數將Q網絡分成兩個通道，一個輸出V，一個輸出A，最後再合起來得到Q Q(s,a) = 狀態的所有動作Q期望 + action-value的優勢程度(思考優勢程度的定義) Q(s,a) = A(s,a) + V(s) 1.值函數V(s) 定義: 狀態s下所有動作價值的期望(矩陣size=1) 2.優勢函數A(s,a) 避免兩個支路直接學習到V(s)=0或者A

>>阅读原文<<