如何理解深度學習分佈式訓練中的large batch size與learning rate的關係?

問題詳情: 在深度學習進行分佈式訓練時,常常採用同步數據並行的方式,也就是採用大的batch size進行訓練,但large batch一般較於小的baseline的batch size性能更差,請問如何理解調試learning rate能使large batch達到small batch同樣的收斂精度和速度? 回答: 最近在進行多GPU分佈式訓練時,也遇到了large batch與learnin
相關文章
相關標籤/搜索