選取訓練神經網絡時的Batch size

時間 2020-12-20

標籤機器學習简体版

原文原文鏈接

結論: batch size 一般爲2的冪次方,128爲分位線,向下(乘以0.5)或向上(乘以2)測試效果,若向下效果繼續,乘以0.5,直指結果不再變好,數值範圍一般在:2到512.有論文說最好的實驗表現都是在batch size處於2~32之間得到的一階優化算法:sgd,adam等,一般Batch size比較小.二階優化算法:共軛梯度法,L-BFGS等需要二階導數,太小,對二階導數誤差累積

>>阅读原文<<