深度學習剖根問題：梯度消失/爆炸

時間 2020-12-27

標籤梯度爆炸简体版

原文原文鏈接

一、梯度消失/梯度爆炸的問題首先來說說梯度消失問題產生的原因吧，雖然是已經被各大牛說爛的東西。不如先看一個簡單的網絡結構，可以看到，如果輸出層的值僅是輸入層的值與權值矩陣W的線性組合，那麼最終網絡最終的輸出會變成輸入數據的線性組合。這樣很明顯沒有辦法模擬出非線性的情況。記得神經網絡是可以擬合任意函數的。好了，既然需要非線性函數，那乾脆加上非線性變換就好了。一般會使用sigmoid函數，得到

>>阅读原文<<