深度強化學習系列之(*): Double Q-Learning算法原理詳解

論文地址: https://papers.nips.cc/paper/3964-double-q-learning.pdf 本論文是由DeepMind發表於2015年NIPS的一篇論文,作者Hasselt。 前言: Q-Learning算法由於受到大規模的動作值過估計(overestimation)而出現不穩定和效果不佳等現象的存在,而導致overestimation的主要原因來自於最大化值函數(
相關文章
相關標籤/搜索