sigmoid梯度消失現象解釋

時間 2021-01-19

原文原文鏈接

解釋：大部分情況下初始化W參數時，基本都是小於 1 的，二 sigmoid函數的導函數如圖所示，求導的最大值爲0.25，神經網絡結構中每一層都有激活函數，這樣在反向傳播求導時，每一層都會乘以一個sigmoid的導函數值，最大爲0.25，當神經網絡層數太多時，也就是乘以多個0.25時，值就會特別的小，就會出現梯度消失的現象。

>>阅读原文<<