梯度消失與梯度爆炸

1. 梯度分析 觀察不同隱藏層數在不同層bias的梯度對比: 可以看出,第一個隱藏層梯度比第四個幾乎慢1000倍. 這種現象普遍存在於神經網絡中,稱爲:vanishing gradient problem 另一種情況與之相反,稱爲:exploding gradient problem 2. 梯度消失 此處就是簡單的反向傳播算法! 標準正態分佈圖 3. 梯度爆炸 4. 不穩定梯度問題 5. 解決辦法
相關文章
相關標籤/搜索