梯度爆炸與梯度消失是什麼?有什麼影響?如何解決?

文章目錄 一、梯度爆炸 1.什麼是梯度爆炸? 2.有何影響? 二、梯度消失 1.定義 2.有何影響? 三、共同點 1.產生原因 2.解決辦法 a. 方案1-預訓練加微調 b. 方案2-梯度剪切、正則化 c. 方案3-relu、leakrelu、elu等激活函數 解決方案4-batchnorm/批規範化 解決方案5-殘差結構 解決方案6-LSTM 梯度消失與梯度爆炸其實差不多,兩種情況下梯度消失經常
相關文章
相關標籤/搜索