動量法

時間 2020-12-24

原文原文鏈接

之前有討論過梯度下降法：參數迭代於是會產生問題，學習參數過小，模型很難到達最優點，而參數過大，某個參數會發散。小批量隨機梯度下降也討論過了（線性迴歸的公式如下）：那麼動量法呢？簡單地將梯度下降公式增加一個動量V，迭代公式如下： %matplotlib inline from mxnet import nd import numpy as np import glu

>>阅读原文<<