Caffe Solver理解篇(2) SGD, AdaDelta, Ada-Grad, Adam, NAG, RMSprop 六種梯度降低方法橫向對比

第一節 SGD 隨機梯度降低 Stochastic gradient descent網絡 利用負梯度方向來更新權重W:函數 加入了動量momentum  μ後:學習 第二節 AdaDelta 設計 出自M. Zeiler - ADADELTA: An adaptive learning rate method.blog 用一階導去估計海森矩陣的方法,可是是來源於Ada-Grad方法,具備5個優勢:
相關文章
相關標籤/搜索