【深度學習】關於Adam

時間 2021-01-15

原文原文鏈接

從SGD（SGD指mini-batch gradient descent）和Adam兩個方面說起。更詳細的可以看：深度學習最全優化方法總結比較（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）（醍醐灌頂！） SGD SGD就是每一次迭代計算mini-batch的梯度，然後對參數進行更新，是最常見的優化方法了。即：其中，是學習率，是梯度 SGD完全依賴於當前batc

>>阅读原文<<