深度學習中的動量

動量的優點 雖然隨機梯度下降仍然是非常受歡迎的優化方法,但其學習過程有時會很慢。動量方法 (Polyak, 1964) 旨在加速學習,特別是處理高曲率、小但一致的梯度,或是帶噪聲的梯度。 動量算法積累了之前梯度指數級衰減的移動平均,並且繼續沿該方向移動。 動量的效果如下圖所示。 動量的主要目的是解決兩個問題: Hessian 矩陣的病態條件和隨機梯度的方差。我們通過此圖說明動量如何克服這兩個問題的
相關文章
相關標籤/搜索