梯度不穩定問題 根本原因在於前面層上的梯度是來自於後面層上梯度的乘積。當存在過多的層次時,就出現了內在本質上的不穩定場景。 梯度消失導致DNN的前面幾層權值得不到更新,相當於對輸入做同一映射,仍接近初始值,等價於淺層神經網絡,
梯度消失 sigmoid導函數爲負的二次曲線有最大值。
梯度爆炸
量化分析
可以考慮使用其它激活函數對梯度消失問題進行改善,如ReLU。