DQN、QQDN和Dueling DQN公式推導分析

一、值函數估計方法引入 在值函數估計方法中,我們希望擬合一個價值模型用來估計每個狀態動作對的累積回報。其代價函數可以寫爲 L = 1 2 ∑ a ∑ s ( Q ( s , a ) − Q ( s , a ; θ ) ) 2 L=\frac{1}{2}\sum_{a}\sum_{s}(Q(s,a)-Q(s,a;\theta))^2 L=21​a∑​s∑​(Q(s,a)−Q(s,a;θ))2 其中
相關文章
相關標籤/搜索