DECOUPLED WEIGHT DECAY REGULARIZATION

時間 2020-12-20

原文原文鏈接

引言 Adam作爲一個常用的深度學習優化方法，提出來的時候論文裏的數據表現都非常好，但實際在使用中發現了不少問題，在許多數據集上表現都不如SGDM這類方法。後續有許多工作針對Adam做了研究，之前整理過關於優化算法的發展歷程：從Stochastic Gradient Descent到Adaptive Moment Estimation，裏面也介紹了一些對於Adam效果不好的研究工作。這篇論文依