DQN、QQDN和Dueling DQN公式推導分析

時間 2021-01-12

原文原文鏈接

一、值函數估計方法引入在值函數估計方法中，我們希望擬合一個價值模型用來估計每個狀態動作對的累積回報。其代價函數可以寫爲 L = 1 2 ∑ a ∑ s ( Q ( s , a ) − Q ( s , a ; θ ) ) 2 L=\frac{1}{2}\sum_{a}\sum_{s}(Q(s,a)-Q(s,a;\theta))^2 L=21a∑s∑(Q(s,a)−Q(s,a;θ))2 其中

>>阅读原文<<