神經網絡中各種優化器簡介

時間 2021-01-02

標籤深度學習算法简体版

原文原文鏈接

1. SGD 1.1 batch-GD 每次更新使用全部的樣本，注意會對所有的樣本取均值，這樣每次更新的速度慢。計算量大。 1.2 SGD 每次隨機取一個樣本。這樣更新速度更快。SGD算法在於每次只去擬合一個訓練樣本，這使得在梯度下降過程中不需去用所有訓練樣本來更新Theta。BGD每次迭代都會朝着最優解逼近，而SGD由於噪音比BGD多，多以SGD並不是每次迭代都朝着最優解逼近，但大體方向是朝着最

>>阅读原文<<