Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

1. 摘要 訓練深層的神經網絡非常困難,因爲在訓練的過程中,隨着前面層數參數的改變,每層輸入的分佈也會隨之改變。這需要我們設置較小的學習率並且謹慎地對參數進行初始化,因此訓練過程比較緩慢。 作者將這種現象稱之爲 internal covariate shift,通過對每層的輸入進行歸一化來解決這個問題。 引入 BN 後,我們可以不用太在意參數的初始化,同時使用更大的學習率,而且也會有正則化的效果,
相關文章
相關標籤/搜索