訓練過程--梯度降低算法(SGD、adam等)

SGD系列 1)Batch gradient descent(批量梯度降低)   在整個數據集上   每更新一次權重,要遍歷全部的樣本,因爲樣本集過大,沒法保存在內存中,沒法線上更新模型。對於損失函數的凸曲面,能夠收斂到全局最小值,對於非凸曲面,收斂到局部最小值。   隨機梯度降低(SGD)和批量梯度降低(BGD)的區別。SGD 從數據集中拿出一個樣本,並計算相關的偏差梯度,而批量梯度降低使用全部
相關文章
相關標籤/搜索