深度學習優化算法——徹底搞懂Momentum

目錄 一、SGD的遇到的問題 二、指數加權移動平均值 三、Momentum 一、SGD的遇到的問題 在深度學習中,通常採用SGD來作爲優化算法來更新參數。因爲傳統的梯度下降算法每更新一次,都要計算所有的樣本,浪費時間,而SGD每次迭代使用一個樣本來對參數進行更新,使得訓練速度加快。 而SGD會陷入局部最優解 由於局部最優解的梯度值也爲0,而且SGD只考慮當前時刻的梯度,當前時刻的梯度爲0時,就會停
相關文章
相關標籤/搜索