Batch Normalization & Weight Initialization.

Batch Normalization 因爲在深度神經網絡中隨着訓練得進行,每一個隱層的參數不斷的發生變化導致每一層的激活函數的輸入發生改變,這與機器學習領域的假設:訓練數據和測試數據的同分布是不符合的。所以會造成以下的問題: (如果不scaling) 激活輸入值分佈的偏移,導致數據向線性函數的取值區間的上下線兩端靠近,導致梯度消失/爆炸的問題,這就是問什麼會訓練速度降低的原因。(可以採用小的le
相關文章
相關標籤/搜索