【強化學習】Deep Reinforcement Learning with Double Q-learning(2015)

Deep Reinforcement Learning with Double Q-learning(2015)web 傳統的q learning被認爲會太高估計action value,由於它包括了一個maximization step,這樣就傾向於太高的估計價值的大小。以前的工做中,高估被歸由於function approximation有限(?)。本文統一了這些觀點,提出當action va
相關文章
相關標籤/搜索