BN——Batch Normalization：Accelerating Deep Network Training by Reducing Internal Covariate Shift

時間 2021-01-02

原文原文鏈接

原文：https://arxiv.org/pdf/1502.03167.pdf 摘要訓練深度神經網絡的複雜性在於，每層輸入的分佈在訓練過程中會發生變化，因爲前面的層的參數會發生變化。通過要求較低的學習率和仔細的參數初始化減慢了訓練，並且使具有飽和非線性的模型訓練起來非常困難。我們將這種現象稱爲內部協變量轉移，並通過標準化層輸入來解決這個問題。我們的方法力圖使標準化成爲模型架構的一部分，併爲每個訓