Double DQN and Dueling DQN

時間 2020-12-30

標籤 Reinforcement Learning 简体版

原文原文鏈接

不是很清楚的可以先看看這篇簡潔版DQN介紹只講思想，不講原理 1．Over-estimate 一般的Q-Learning中總會存在一些問題，由於下圖中 m a x a max_a maxa的存在，總是會過大的估計Q-VALUE。 Q-value是一個神經網絡，因此有偏差，可能高估，而Q-learning總是會選擇那個被高估的值。 DQN 主要思想：有兩個Q-network，Q(s,a)負責選擇

>>阅读原文<<