Deep Learning 最優化方法之Momentum(動量)

先上結論: 1.動量方法主要是爲了解決Hessian矩陣病態條件問題(直觀上講就是梯度高度敏感於參數空間的某些方向)的。 2.加速學習 3.一般將參數設爲0.5,0.9,或者0.99,分別表示最大速度2倍,10倍,100倍於SGD的算法。 4.通過速度v,來積累了之間梯度指數級衰減的平均,並且繼續延該方向移動: 再看看算法: 動量算法直觀效果解釋: 如圖所示,紅色爲SGD+Momentum。黑色爲
相關文章
相關標籤/搜索