論文筆記:Batch Normalization

論文原文鏈接:https://arxiv.org/abs/1502.03167 Abstract 深度神經網絡訓練過程中前面層參數的變化會導致每一層輸入分佈發生改變,這使得網絡訓練變得複雜。這個問題還使得網絡需要以較低的學習率和仔細的參數初始化,從而降低了訓練速度,同時當採用飽和非線性激活函數時網絡訓練變得異常複雜。我們將這種現象叫做internal convariate shift,並且通過標準
相關文章
相關標籤/搜索