RMSprop、動量梯度下降法與Adam優化 [Andrew Ng 深度學習筆記]

時間 2020-12-24

原文原文鏈接

如圖：對於藍色的情況，由於梯度下降時來回擺動，導致收斂很慢若增大學習率，結果可能偏離函數的範圍，如紫色的情況。爲了避免擺動過大，就必須使用較小的學習率，進一步降低了收斂速度我們希望的是在縱軸上減緩學習，在橫軸上加快學習，如紅色的情況。有多種方法可以實現動量梯度下降法（Momentum）此處用了指數加權平均的更新方法因爲縱軸有許多擺動，在求平均的時候都可以被抵消，最後幾乎等於0，所以縱軸

>>阅读原文<<