模型訓練中遇到的問題——梯度消失/爆炸(Loss爲nan)

時間 2021-01-08

標籤 tensorflow學習深度學習简体版

原文原文鏈接

可能出現的原因 Learning_rate過大，導致梯度較大，導致梯度爆炸激活函數、損失函數選取不當，在這種情況很少出現當網絡的層數比較多，模型的數值穩定性容易變差，容易產生梯度消失和梯度爆炸，這會導致我們的loss在訓練時變爲nan，也稱之爲數據溢出。採用stride大於kernel size的池化層解決方法（個人經驗）首先不要先考慮激活函數，應該先考慮的是learning_rate，

>>阅读原文<<