幾種優化算法的個人理解

時間 2021-01-03

標籤深度學習简体版

原文原文鏈接

幾種優化算法的個人理解 SGD 指數加權移動平均動量法 AdaGrad RMSProp AdaDelta Adam SGD 一般指 Batch Gradient Descent。有時會出現的一個問題：某方向太快，某方向太慢，如圖甚至，學習率稍微大一點就發散的問題指數加權移動平均指數加權移動平均並不是優化算法，但是下面這些基於 SGD 的改進算法都用到了指數加權移動平均。 exponen

>>阅读原文<<