手工推導---神經網絡中的梯度爆炸與消失

時間 2020-12-22

標籤科研简体版

原文原文鏈接

梯度爆炸與消失的推導以一個3個神經元的網絡爲例，優化參數w1 綜上所述原因如下：梯度消失一般出現深層網絡中採用了不合適的損失函數。梯度爆炸一般出現在深層網絡和權值初始化值太大的情況下。解決方案（1）預訓練加微調（2）梯度剪切、正則（3）ReLU、LeakyReLU、ELU等激活函數（4）BatchNormalization （5）殘差結構（6）LSTM 本文重點解釋問題產生的原因

>>阅读原文<<