Double DQN and Dueling DQN

不是很清楚的可以先看看這篇簡潔版DQN介紹 只講思想,不講原理 1.Over-estimate 一般的Q-Learning中總會存在一些問題,由於下圖中 m a x a max_a maxa​的存在,總是會過大的估計Q-VALUE。 Q-value是一個神經網絡,因此有偏差,可能高估,而Q-learning總是會選擇那個被高估的值。 DQN 主要思想:有兩個Q-network,Q(s,a)負責選擇
相關文章
相關標籤/搜索