訓練過程--梯度下降算法(SGD、adam等)

SGD系列 1)Batch gradient descent(批量梯度下降)   在整個數據集上   每更新一次權重,要遍歷所有的樣本,由於樣本集過大,無法保存在內存中,無法線上更新模型。對於損失函數的凸曲面,可以收斂到全局最小值,對於非凸曲面,收斂到局部最小值。   隨機梯度下降(SGD)和批量梯度下降(BGD)的區別。SGD 從數據集中拿出一個樣本,並計算相關的誤差梯度,而批量梯度下降使用所有
相關文章
相關標籤/搜索