深度學習總結(六)——梯度彌散、爆炸和過擬合

一、梯度彌散和爆炸 1. 梯度彌散的解釋 梯度彌散的問題很大程度上是來源於激活函數的「飽和」。因爲在後向傳播的過程中仍然需要計算激活函數的導數,所以一旦卷積核的輸出落入函數的飽和區,它的梯度將變得非常小。 使用反向傳播算法傳播梯度的時候,隨着傳播深度的增加,梯度的幅度會急劇減小,會導致淺層神經元的權重更新非常緩慢,不能有效學習。這樣一來,深層模型也就變成了前幾層相對固定,只能改變最後幾層的淺層模型
相關文章
相關標籤/搜索