斯坦福CS231n計算機視覺-神經網絡參數更新機制

梯度下降法(Gradient descent update,SGD) 最後一行就是梯度下降的公式,只是簡單的相乘。 存在問題: 梯度的不連續性會導致參數來回震盪,所以收斂的比較慢。 動量更新(momentum update) 可以看到就是本次更新和上幾次的更新還有關係,原來相當於一個沒有質量的球滾動,現在考慮了球的質量,有一定的慣性。V一般初始化爲0,mu一般爲0.5, 0.9, or 0.99,
相關文章
相關標籤/搜索