梯度消失和梯度爆炸的原因和解決方案

產生消失的梯度問題的原因 注:實際上就是梯度計算過程中,w值和激活函數的導數值相乘大於1或者小於1的問題,如果是大於1,那麼經歷過很多個隱藏層梯度就會越來越大,即梯度爆炸,如果是小於1當然就是梯度消失啦!!! 所以w初始化大,w值和激活函數的導數值相乘可能越來越大,造成梯度爆炸。 所以w初始化小,w值和激活函數的導數值相乘可能越來越小,造成梯度消失。 sigmoid的導數的最大值就很小,每一層的s
相關文章
相關標籤/搜索