從Stochastic Gradient Descent到Adaptive Moment Estimation

引言 深度學習優化算法,基本的發展歷程就是: SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -> Nadam 當說到優化算法時,我們說的是什麼? 優化算法 對於優化算法,給定一個具有參數θ的目標函數,一般會定義爲損失函數,如 L = 1 / N ∑ L i L = 1/N ∑ Li L=1/N∑Li(每個樣本損失函數的疊加求均值。 那麼優化的目標
相關文章
相關標籤/搜索