第九章深度強化學習-Double DQN

時間 2021-01-12

原文原文鏈接

獲取更多資訊，趕快關注上面的公衆號吧！文章目錄第九章深度強化學習-Double DQN 9.1 回顧 9.2 過高估計 9.3 Double DQN References 第九章深度強化學習-Double DQN 目前流行的Q-learning算法會過高的估計在特定條件下的動作值。實際上，在實踐中，這種過高的估計是否常見，是否會損害性能，以及是否可以預防，這些以前都不知道。於是Hado

>>阅读原文<<