深度學習優化算法——徹底搞懂Momentum

時間 2021-01-02

標籤深度學習简体版

原文原文鏈接

目錄一、SGD的遇到的問題二、指數加權移動平均值三、Momentum 一、SGD的遇到的問題在深度學習中，通常採用SGD來作爲優化算法來更新參數。因爲傳統的梯度下降算法每更新一次，都要計算所有的樣本，浪費時間，而SGD每次迭代使用一個樣本來對參數進行更新，使得訓練速度加快。而SGD會陷入局部最優解由於局部最優解的梯度值也爲0，而且SGD只考慮當前時刻的梯度，當前時刻的梯度爲0時，就會停

>>阅读原文<<