【深度學習】極值優化方法總結比較（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）

時間 2020-12-27

原文原文鏈接

SGD 此處的SGD指mini-batch gradient descent，關於batch gradient descent, stochastic gradient descent, 以及 mini-batch gradient descent的具體區別就不細說了。現在的SGD一般都指mini-batch gradient descent。 SGD就是每一次迭代計算mini-batch的梯度，

>>阅读原文<<