Batch Normalization基本原理詳解

在實際訓練過程中,經常出現隱含層因數據分佈不均,導致梯度消失或不起作用的情況。如採用sigmoid函數或tanh函數爲激活函數時,如果數據分佈在兩側,這些激活函數的導數就接近於0。這樣一來,BP算法得到的梯度也就消失了。 如何解決這個問題? Sergey Ioffe和Christian Szegedy兩位學者提出了批標準化(BatchNormalization)方法。Batch Normaliza
相關文章
相關標籤/搜索