【5分鐘 Paper】Deep Reinforcement Learning with Double Q-learning

論文題目:Deep Reinforcement Learning with Double Q-learning 所解決的問題?   Q-Learning算法中存在動作值函數過估計(overestimate action values)的問題(因爲其更新方程中包含一個maximization動作值函數的一項),那這樣的過估計問題是否會對其算法性能有所影響呢?能不能去避免這樣的一種過估計問題呢? 背景
相關文章
相關標籤/搜索