從Stochastic Gradient Descent到Adaptive Moment Estimation

時間 2020-12-24

原文原文鏈接

引言深度學習優化算法，基本的發展歷程就是： SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -> Nadam 當說到優化算法時，我們說的是什麼？優化算法對於優化算法，給定一個具有參數θ的目標函數，一般會定義爲損失函數，如 L = 1 / N ∑ L i L = 1/N ∑ Li L=1/N∑Li（每個樣本損失函數的疊加求均值。那麼優化的目標

>>阅读原文<<