模型訓練中遇到的問題——梯度消失/爆炸(Loss爲nan)

可能出現的原因 Learning_rate過大,導致梯度較大,導致梯度爆炸 激活函數、損失函數選取不當,在這種情況很少出現 當網絡的層數比較多,模型的數值穩定性容易變差,容易產生梯度消失和梯度爆炸,這會導致我們的loss在訓練時變爲nan,也稱之爲數據溢出。 採用stride大於kernel size的池化層 解決方法(個人經驗) 首先不要先考慮激活函數,應該先考慮的是learning_rate,
相關文章
相關標籤/搜索