梯度爆炸與梯度消失

梯度不穩定問題   根本原因在於前面層上的梯度是來自於後面層上梯度的乘積。當存在過多的層次時,就出現了內在本質上的不穩定場景。   梯度消失導致DNN的前面幾層權值得不到更新,相當於對輸入做同一映射,仍接近初始值,等價於淺層神經網絡, 梯度消失   sigmoid導函數爲負的二次曲線有最大值。 梯度爆炸    量化分析      可以考慮使用其它激活函數對梯度消失問題進行改善,如ReLU。
相關文章
相關標籤/搜索