【深度學習】極值優化方法總結比較(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam)

SGD 此處的SGD指mini-batch gradient descent,關於batch gradient descent, stochastic gradient descent, 以及 mini-batch gradient descent的具體區別就不細說了。現在的SGD一般都指mini-batch gradient descent。 SGD就是每一次迭代計算mini-batch的梯度,
相關文章
相關標籤/搜索