加速梯度下降的技巧

在用梯度下降的方法訓練神經網絡時,如果誤差曲面本身並不是凸的,那麼這個曲面可能包含許多獨立於全局最小值的局部最小值,很有可能在局部最小值時訓練就停止了,造成結果不佳。另外,即便我們的網絡達到了全局最小值也有可能出現過擬合,不能保證模型有很好的泛化性能。下面介紹幾種梯度下降的方法。 1.隨機和小批量隨機梯度下降 標準的梯度下降每次迭代更新所有的訓練數據的子集,SGD是每一次迭代中使用每個樣本更新一次
相關文章
相關標籤/搜索