花書筆記之梯度下降的回憶

隨機梯度 SGD,一次訓練一個樣本,不穩定,可能不收斂到全局最優。 mini batch,一次訓練一組樣本,上下波動厲害。計算量少。 全部樣本,計算量太大,收斂快,全局最優。 一般是mini batch。   基本的,按梯度更新。 動量(滑動平均),很像股市裏的MACD。v^n = K* v^n-1 + (1-K)v^n。 如果本次方向與之前不一致時,可以向回拉一下,這樣就不會來回抖動   RMS
相關文章
相關標籤/搜索