動量法

之前有討論過梯度下降法:   參數迭代   於是會產生問題,學習參數過小,模型很難到達最優點,而參數過大,某個參數會發散。   小批量隨機梯度下降也討論過了(線性迴歸的公式如下):   那麼動量法呢?   簡單地將梯度下降公式增加一個動量V,迭代公式如下:   %matplotlib inline from mxnet import nd import numpy as np import glu
相關文章
相關標籤/搜索