mini-batch梯度下降

一、背景  傳統的梯度下降,每次梯度下降都是對所有的訓練數據進行計算平均梯度,這種梯度下降法叫做full-batch梯度下降法。考慮一種情況,當訓練數據量在千萬級別時,一次迭代需要等待多長時間,會極大的降低訓練速度。 每次訓練的使用同一份數據,所以loss的損失函數會是一直下降的,收斂到的是全局最優解。 二、mini-batch梯度下降 如果選擇介於1和最大訓練數據量之間的一個bath size數
相關文章
相關標籤/搜索