Caffe Solver理解篇（2） SGD, AdaDelta, Ada-Grad, Adam, NAG, RMSprop 六種梯度降低方法橫向對比

時間 2019-12-07

標籤 caffe solver 理解 sgd adadelta ada grad adam nag rmsprop 梯度降低方法橫向對比简体版

原文原文鏈接

第一節 SGD 隨機梯度降低 Stochastic gradient descent網絡利用負梯度方向來更新權重W：函數加入了動量momentum μ後：學習第二節 AdaDelta 設計出自M. Zeiler - ADADELTA: An adaptive learning rate method.blog 用一階導去估計海森矩陣的方法，可是是來源於Ada-Grad方法，具備5個優勢：

>>阅读原文<<