DL優化函數之mini-batch SGD

SGD隨機梯度下降法對經典的梯度下降法有了極大速度的提升。但有一個問題就是由於過於自由 導致訓練的loss波動很大。那麼如何可以兼顧經典GD的穩定下降同時又保有SGD的隨機特性呢?於是小批量梯度下降法, mini-batch gradient descent 便被提了出來。其主要思想就是每次只拿總訓練集的一小部分來訓練,比如一共有5000個樣本,每次拿100個樣本來計算loss,更新參數。50次後
相關文章
相關標籤/搜索