幾種常用Gradient descent optimization算法詳解

參考http://ruder.io/optimizing-gradient-descent/index.html#batchgradientdescent 最基本的gradient descent: 1.Momentum Momentum 是一種有助於在相關方向上加速SGD並抑制振盪的方法。它通過將上步的更新向量添加到當前的更新向量來實現。 γ通常是0.9或者類似的值。 2.Adagrad Ada
相關文章
相關標籤/搜索