梯度爆炸與梯度消失

  • 梯度不穩定問題
      根本原因在於前面層上的梯度是來自於後面層上梯度的乘積。當存在過多的層次時,就出現了內在本質上的不穩定場景。
      梯度消失導致DNN的前面幾層權值得不到更新,相當於對輸入做同一映射,仍接近初始值,等價於淺層神經網絡,

  • 梯度消失
      sigmoid導函數爲負的二次曲線有最大值。

  • 梯度爆炸
      

  • 量化分析
      

  可以考慮使用其它激活函數對梯度消失問題進行改善,如ReLU。