梯度消失和梯度爆炸

梯度消失和梯度爆炸 首先我們先說一下DNN中的梯度消失和梯度爆炸。 DNN中的梯度消失和梯度爆炸是由於激活函數引起的,主要是sigmoid函數。 因爲在反向傳播的過程中我們需要對激活函數進行求導,而sigmoid激活函數的導數如下圖: 所以如果網絡足夠長的話,經過多個激活函數的導數以後就會出現梯度接近於0的情況。 梯度爆炸是由於權重參數初始化太大時,權重參數與激活函數的導數相乘導致梯度爆炸的出現。
相關文章
相關標籤/搜索