神經網絡學習技巧之梯度下降訓練策略

梯度算法 隨機梯度下降SGD(Stochastic Gradient Descent) 小批次梯度下降(Mini-batch Gradient Descent) 批次梯度下降 利用全部訓練數據集計算損失函數的梯度來執行一次參數更新 • 更新較慢 • 不能在線更新模型 • 對凸的損失函數可保證收斂到全局最小值;對非凸的損失函數可收斂到局部最小值 隨機梯度下降 對每一個訓練樣本點和標籤執行參數更新 •
相關文章
相關標籤/搜索