Deep Learning Specialization課程筆記——最優化算法

Mini-batch gradient descent 假設有5000000樣本,我們選取每一個小訓練集有1000個樣本,則: 算法如下,實際上就是分成5000份然後做循環: 代價函數對比: 當mini-batch的大小等於訓練集大小m,就是批量梯度下降。梯度下降時噪聲小,步長大,可以達到最小值,下圖藍色線。缺點:在每次迭代中風遍歷整個訓練集,花費時間長。 當mini-batch的大小爲1,就是隨
相關文章
相關標籤/搜索