論文-閱讀翻譯理解筆記-Batch Normalization Accelerating Deep Network Training by Reducing Inter

Abstract:當前神經網絡層之前的神經網絡層的參數變化,引起神經網絡每一層輸入數據的分佈產生了變化,這使得訓練一個深度神經網絡(DeepNeural Networks)變得複雜。這樣就要求使用更小的學習率,參數初始化也需要更爲謹慎的設置。並且由於非線性飽和(注:如sigmoid激活函數的非線性飽和問題),訓練一個深度神經網絡會非常困難。我們稱這個現象爲:internal covariate s
相關文章
相關標籤/搜索