RNN 訓練時梯度爆炸和梯度消失的理解

時間 2021-01-08

原文原文鏈接

梯度爆炸比方說當前點剛好在懸崖邊上, 這個時候計算這個點的斜率就會變得非常大, 我們跟新的時候是按斜率 × 學習率來的, 那麼這時候參數的跟新就會非常非常大, loss也會非常大應對辦法就是當斜率超過某個值比如15時, 設定斜率爲15. 造成梯度爆炸的原因並不是來自激活函數 — sigmoid , 如果把激活函數換爲 ReLU 通常模型表現會更差梯度消失可以理解爲 RNN 把 wei

>>阅读原文<<