神經網絡訓練中的梯度消失與梯度爆炸

梯度消失會導致深層網絡前面的層權值幾乎不變,仍接近於初始化的權值,就等價於只有後幾層的淺層網絡的學習了。 層數比較多的神經網絡模型在訓練時也是會出現一些問題的,其中就包括梯度消失問題(gradient vanishing problem)和梯度爆炸問題(gradient exploding problem)。梯度消失問題和梯度爆炸問題一般隨着網絡層數的增加會變得越來越明顯。 例如,對於下圖所示的含
相關文章
相關標籤/搜索