梯度下降與優化方法(BGD & SGD & Momentum & AdaGrad & RMSProp & Adam)

SGD SGD指stochastic gradient descent,即隨機梯度下降。是梯度下降的batch版本。 對於訓練數據集,我們首先將其分成n個batch,每個batch包含m個樣本。我們每次更新都利用一個batch的數據,而非整個訓練集。即: xt+1=xt+Δxt x t + 1 = x t + Δ x t Δxt=−ηgt Δ x t = − η g t 其中,η爲學習率,gt爲x
相關文章
相關標籤/搜索