Accurate, Large Minibatch SGD

摘要 愈來愈大的神經網絡和愈來愈大的數據集使得訓練時間愈來愈長,阻礙了研究的進行。分佈式的同步SGD經過將SGD的minibatches劃分爲一系列並行的worker,可能爲上面的問題提供一個可能的解決方案。爲了讓這個方案儘可能高效,每一個worker的負載必須足夠大,這使得SGD的minibatched變得很大。在這篇論文中,做者展現了當minibatched變得很大時,ImageNet數據集的
相關文章
相關標籤/搜索