詳解深度神經網絡中常見的梯度消失和梯度爆炸及其具體的解決方案

梯度不穩定問題 在層數比較多的神經網絡模型的訓練過程中會出現梯度不穩定的問題。具體來說就是神經網絡前面的層可能會出現梯度消失或者梯度爆炸的情況。梯度消失問題和梯度爆炸問題一般會隨着神經網絡層數的增加變得越來越明顯。 損失函數計算的誤差通過梯度反向傳播的方式,指導深度網絡權值的更新優化。因爲神經網絡的反向傳播算法是從輸出層到輸入層的逐層向前進行鏈式求導,前面層上的梯度是來自於後面層上梯度的乘積,當存
相關文章
相關標籤/搜索