跨卡同步 Batch Normalization

一.爲什麼要跨卡同步 Batch Normalization 現有的標準 Batch Normalization 因爲使用數據並行(Data Parallel),是單卡的實現模式,只對單個卡上對樣本進行歸一化,相當於減小了批量大小(batch-size)。 對於比較消耗顯存的訓練任務時,往往單卡上的相對批量過小,影響模型的收斂效果。 之前在在圖像語義分割的實驗中,就發現使用大模型的效果反而變差,實
相關文章
相關標籤/搜索