DeepMind提出Rainbow:整合DQN算法中的六種變體

「AlphaGo 之父」David Sliver 等人最近探索的方向轉向了強化學習和深度 Q 網絡(Deep Q-Network)。在 DeepMind 最近發表的論文中,研究人員整合了 DQN 算法中的六種變體,在 Atari 遊戲中達到了超越以往所有方法的表現。 大規模強化學習(RL)在複雜連續決策問題中最成功的方法是 Deep Q-Network 算法(DQN; Mnih et al. 20
相關文章
相關標籤/搜索