談一談深度學習中的歸一化問題

如下圖所示,以3個隱藏層的神經網絡爲例,每層網絡只有一個神經元: 其中H表示**函數,這裏選擇sigmoid函數爲**函數。損失函數爲 根據梯度下降法和反向傳播算法來更新w1、w2、w3、w4: 其中H函數表示sigmoid**函數。 若wi的初始化值小於1;當x位於sigmoid函數兩側時,其dH(x)/dx的導數接近於0。因此經過多層的反向傳播,導致損失函數J對w1的倒數接近於0。這就是梯度消
相關文章
相關標籤/搜索