Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shift 論文筆記

0 摘要     當前神經網絡層之前的神經網絡層的參數變化,會引起神經網絡每一層輸入數據的分佈產生變化,這使得訓練一個深度神經網絡變得複雜。通過設置較小的學習率以及更謹慎的初始化參數減慢了訓練,並且由於非線性飽和(注:如sigmoid激活函數的非線性飽和問題),訓練一個深度神經網絡會非常困難。這種現象被稱爲internal covariate shift。解決這個問題需要對輸入進行標準化。本文的方
相關文章
相關標籤/搜索