深度網絡梯度爆炸的原因、產生的影響和解決方法

1.概念 深度模型有關數值穩定性的典型問題是:衰減(vanishing)和爆炸(explosion)。 當神經網絡的層數較多時,模型的數值穩定性容易變差。舉個簡單的例子: 爲了便於討論,不考慮偏差參數, 且設所有隱藏層的激活函數爲恆等映射(identity mapping)φ(x) = x。給定輸入X,多層感知 機的第l層的輸出H(l) = XW(1)W(2) ...W(l)。此時,如果層數l較大
相關文章
相關標籤/搜索