如何理解深度學習分佈式訓練中的large batch size與learning rate的關係？

時間 2020-12-20

原文原文鏈接

問題詳情：在深度學習進行分佈式訓練時，常常採用同步數據並行的方式，也就是採用大的batch size進行訓練，但large batch一般較於小的baseline的batch size性能更差，請問如何理解調試learning rate能使large batch達到small batch同樣的收斂精度和速度？回答：最近在進行多GPU分佈式訓練時，也遇到了large batch與learnin

>>阅读原文<<