神經網絡中各種優化器簡介

1. SGD 1.1 batch-GD 每次更新使用全部的樣本,注意會對所有的樣本取均值,這樣每次更新的速度慢。計算量大。 1.2 SGD 每次隨機取一個樣本。這樣更新速度更快。SGD算法在於每次只去擬合一個訓練樣本,這使得在梯度下降過程中不需去用所有訓練樣本來更新Theta。BGD每次迭代都會朝着最優解逼近,而SGD由於噪音比BGD多,多以SGD並不是每次迭代都朝着最優解逼近,但大體方向是朝着最
相關文章
相關標籤/搜索