深度強化學習系列之(*): Double Q-Learning算法原理詳解

時間 2021-01-12

標籤 Double Q-Learning Overestimation 過估計 Q-learning 简体版

原文原文鏈接

論文地址： https://papers.nips.cc/paper/3964-double-q-learning.pdf 本論文是由DeepMind發表於2015年NIPS的一篇論文，作者Hasselt。前言： Q-Learning算法由於受到大規模的動作值過估計(overestimation)而出現不穩定和效果不佳等現象的存在，而導致overestimation的主要原因來自於最大化值函數(

>>阅读原文<<