An overview of gradient descent optimization algorithms

轉載自:http://sebastianruder.com/optimizing-gradient-descent/html 梯度降低優化及其各類變體。1.隨機梯度降低(SGD) 2.小批量梯度降低(mini-batch)3.最優勢附近加速且穩定的動量法(Momentum)4.在谷歌毛臉中也使用的自適應學習率AdaGrad 5.克服AdaGrad梯度消失的RMSprop和AdaDelta。S.Ru
相關文章
相關標籤/搜索