幾種優化算法的個人理解

幾種優化算法的個人理解 SGD 指數加權移動平均 動量法 AdaGrad RMSProp AdaDelta Adam SGD 一般指 Batch Gradient Descent。 有時會出現的一個問題:某方向太快,某方向太慢, 如圖 甚至,學習率稍微大一點就發散的問題 指數加權移動平均 指數加權移動平均並不是優化算法,但是下面這些基於 SGD 的改進算法都用到了指數加權移動平均。 exponen
相關文章
相關標籤/搜索