【深度學習】關於Adam

從SGD(SGD指mini-batch gradient descent)和Adam兩個方面說起。 更詳細的可以看:深度學習最全優化方法總結比較(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam)(醍醐灌頂!) SGD SGD就是每一次迭代計算mini-batch的梯度,然後對參數進行更新,是最常見的優化方法了。即: 其中,是學習率,是梯度 SGD完全依賴於當前batc
相關文章
相關標籤/搜索