深度神經網絡中的梯度消失與爆炸

在反向傳播過程中需要對**函數進行求導,如果導數大於1,那麼隨着網絡層數的增加梯度更新將會朝着指數爆炸的方式增加這就是梯度爆炸。同樣如果導數小於1,那麼隨着網絡層數的增加梯度更新信息會朝着指數衰減的方式減少這就是梯度消失。因此,梯度消失、爆炸,其根本原因在於反向傳播訓練法則。計算權值更新信息的時候需要計算前層偏導信息,因此如果**函數選擇不合適,比如使用sigmoid,梯度消失就會很明顯了,原因看
相關文章
相關標籤/搜索