手工推導---神經網絡中的梯度爆炸與消失

梯度爆炸與消失的推導 以一個3個神經元的網絡爲例,優化參數w1 綜上所述原因如下: 梯度消失一般出現深層網絡中採用了不合適的損失函數。 梯度爆炸一般出現在深層網絡和權值初始化值太大的情況下。 解決方案 (1)預訓練加微調 (2)梯度剪切、正則 (3)ReLU、LeakyReLU、ELU等激活函數 (4)BatchNormalization (5)殘差結構 (6)LSTM 本文重點解釋問題產生的原因
相關文章
相關標籤/搜索