神經網絡梯度消失和梯度爆炸原因推導及其解決方案

當我們需要解決一個非常複雜的問題,例如在高分辨率圖像中檢測數百種類型的對象,我們可能需要訓練一個非常深的DNN,可能需要幾十層或者上百層,每層包含數百個神經元,通過成千上萬個連接進行連接,我們會遇到以下問題: 首先,梯度消失或梯度爆炸 其次,訓練緩慢 第三,訓練參數大於訓練集的風險 梯度消失的原因: 生物神經元似乎是用 Sigmoid(S 型)激活函數活動的,因此研究人員在很長一段時間內堅持 Si
相關文章
相關標籤/搜索