sigmoid梯度消失現象解釋

解釋: 大部分情況下初始化W參數時,基本都是小於 1 的,二 sigmoid函數的導函數如圖所示,求導的最大值爲0.25,神經網絡結構中每一層都有激活函數,這樣在反向傳播求導時,每一層都會乘以一個sigmoid的導函數值,最大爲0.25,當神經網絡層數太多時,也就是乘以多個0.25時,值就會特別的小,就會出現梯度消失的現象。
相關文章
相關標籤/搜索