常見梯度下降法

(學習cs231n的筆記,圖片就直接偷懶貼了視頻的截圖,見諒) 一、最常見的三種梯度下降法: 批量梯度下降(BGD Batch gradient descent) BGD 採用整個訓練集的數據來計算 cost function 對參數的梯度 缺點:就對整個數據集計算梯度,所以計算起來非常慢 隨機梯度下降(SGD stochastic gradient descent) 每次更新時對每個樣本進行梯度
相關文章
相關標籤/搜索