選取訓練神經網絡時的Batch size

結論: batch size  一般爲2的冪次方,128爲分位線,向下(乘以0.5)或向上(乘以2)測試效果,若向下效果繼續,乘以0.5,直指結果不再變好,數值範圍一般在:2到512.有論文說最好的實驗表現都是在batch size處於2~32之間得到的 一階優化算法:sgd,adam等,一般Batch size比較小.二階優化算法:共軛梯度法,L-BFGS等需要二階導數,太小,對二階導數誤差累積
相關文章
相關標籤/搜索