Accurate, Large Minibatch SGD

時間 2020-10-06

標籤 web 網絡分佈式 svg 函數性能學習優化 xml 開發欄目 HTML 简体版

原文原文鏈接

摘要愈來愈大的神經網絡和愈來愈大的數據集使得訓練時間愈來愈長，阻礙了研究的進行。分佈式的同步SGD經過將SGD的minibatches劃分爲一系列並行的worker，可能爲上面的問題提供一個可能的解決方案。爲了讓這個方案儘可能高效，每一個worker的負載必須足夠大，這使得SGD的minibatched變得很大。在這篇論文中，做者展現了當minibatched變得很大時，ImageNet數據集的

>>阅读原文<<