【深度學習】梯度消失與梯度爆炸的原因分析與解決策略

前言 梯度消失和梯度爆炸是深度網絡訓練過程中容易遇到的問題,由於網絡層數的加深,梯度的膨脹或縮小效應不斷累積,最終很容易造成模型無法收斂。除了模型本身的深度,發生的原因往往與參數初始化及模型設置,這裏列舉一些場景的原因與解決策略,以供參考。 一、發生原因 梯度消失與梯度爆炸出現的原因基本一致,一般可能是網絡層數過深、激活函數、損失函數設置與參數初始化問題。學過梯度下降理論就很好理解,無非就是求梯度
相關文章
相關標籤/搜索