DECOUPLED WEIGHT DECAY REGULARIZATION

引言 Adam作爲一個常用的深度學習優化方法,提出來的時候論文裏的數據表現都非常好,但實際在使用中發現了不少問題,在許多數據集上表現都不如SGDM這類方法。 後續有許多工作針對Adam做了研究,之前整理過關於優化算法的發展歷程:從Stochastic Gradient Descent到Adaptive Moment Estimation,裏面也介紹了一些對於Adam效果不好的研究工作。 這篇論文依
相關文章
相關標籤/搜索