論文:accurate ,large minibatch SGD:Training ImageNet in 1 Hour

Abstract: 這篇論文發現,在 ImageNet dataset 上使用 large minibatch 會導致優化困難,但是當這個問題解決了,模型具有更好的泛化能力,並且沒有精度上的損失 爲達到這個目的,我們提出了 hyper-parameter-free linear scaling rule,用來調整學習率,學習率是有關於 minibatch size 的一個函數,還提出了一個 war
相關文章
相關標籤/搜索