深度學習剖根問題:梯度消失/爆炸

一、梯度消失/梯度爆炸的問題 首先來說說梯度消失問題產生的原因吧,雖然是已經被各大牛說爛的東西。不如先看一個簡單的網絡結構,   可以看到,如果輸出層的值僅是輸入層的值與權值矩陣W的線性組合,那麼最終網絡最終的輸出會變成輸入數據的線性組合。這樣很明顯沒有辦法模擬出非線性的情況。記得神經網絡是可以擬合任意函數的。好了,既然需要非線性函數,那乾脆加上非線性變換就好了。一般會使用sigmoid函數,得到
相關文章
相關標籤/搜索