爲什麼sigmoid會造成梯度消失?

這裏僅僅做一些數學上的簡單分析,首先看sigmoid的公式: 它的導數: 的圖像如下: 也就是說任何輸入都會被縮放到0到1,如果隱層的所有layer都使用sigmoid,除了第一層的輸入,最後一層的輸出,其他層的輸入輸出都是0到1,看看的完整圖像: z大概在-5到5之間,纔有值,而除第一層隱層的輸入都在0到1之間,所以的圖像如下: 最終取值大概0.2到0.25之間,下面以一個簡單的神經原結構舉例:
相關文章
相關標籤/搜索