梯度消失、梯度爆炸

反向傳播算法(即BP算法)是從輸出層反向傳到輸入層,逐層傳遞誤差梯度,進而進行權重的更新。 訓練很深的神經網絡時,隨着層數的增加,導數會出現指數級的下降,則導致梯度消失。或者指數級的增加,導致梯度爆炸;本質是梯度傳遞的鏈式法則所導致的矩陣高次冪(反向傳播會逐層對函數求偏導相乘)。 1 梯度消失 1.1 原因 在深層網絡中,如果激活函數的導數小於1,根據鏈式求導法則,靠近輸入層的參數的梯度因爲乘了很
相關文章
相關標籤/搜索