神經網絡學習技巧之梯度下降訓練策略

時間 2021-01-02

原文原文鏈接

梯度算法隨機梯度下降SGD（Stochastic Gradient Descent）小批次梯度下降（Mini-batch Gradient Descent）批次梯度下降利用全部訓練數據集計算損失函數的梯度來執行一次參數更新 • 更新較慢 • 不能在線更新模型 • 對凸的損失函數可保證收斂到全局最小值；對非凸的損失函數可收斂到局部最小值隨機梯度下降對每一個訓練樣本點和標籤執行參數更新 •

>>阅读原文<<