這裏僅僅作一些數學上的簡單分析,首先看sigmoid的公式:3d
它的導數:code
的圖像以下:blog
也就是說任何輸入都會被縮放到0到1,若是隱層的全部layer都使用sigmoid,除了第一層的輸入,最後一層的輸出,其餘層的輸入輸出都是0到1,看看的完整圖像:數學
z大概在-5到5之間,纔有值,而除第一層隱層的輸入都在0到1之間,因此的圖像以下:class
最終取值大概0.2到0.25之間,下面以一個簡單的神經原結構舉例:im
因爲會把縮小4至5倍,而這個又會影響前一層的,反向下去,每一層的在不斷被縮小,深度越深這種連鎖反應越明顯,越靠近輸入層越小,中a又是0到1之間的梯度再次被總體縮小,這裏主要考慮了以及的傳遞性以及輸入a帶來的影響,我認爲權重w只會對局部的帶來影響,而帶來的這種連續縮小的影響將傳遞到計算前層的中。d3
梯度消失帶來的影響,靠近輸入層的參數幾乎不能被更新,靠近輸入層的layer預測結果不許確,產生對整個後面的影響,最後沒法訓練。img