第九章 深度強化學習-Double DQN

獲取更多資訊,趕快關注上面的公衆號吧! 文章目錄 第九章 深度強化學習-Double DQN 9.1 回顧 9.2 過高估計 9.3 Double DQN References 第九章 深度強化學習-Double DQN   目前流行的Q-learning算法會過高的估計在特定條件下的動作值。實際上,在實踐中,這種過高的估計是否常見,是否會損害性能,以及是否可以預防,這些以前都不知道。於是Hado
相關文章
相關標籤/搜索