RNN 訓練時梯度爆炸和梯度消失的理解

梯度爆炸 比方說當前點剛好在懸崖邊上, 這個時候計算這個點的斜率就會變得非常大, 我們跟新的時候是按 斜率 × 學習率 來的, 那麼這時候參數的跟新就會非常非常大, loss也會非常大 應對辦法就是 當斜率超過某個值比如15時, 設定斜率爲15. 造成梯度爆炸的原因並不是來自激活函數 — sigmoid , 如果把激活函數換爲 ReLU 通常模型表現會更差 梯度消失 可以理解爲 RNN 把 wei
相關文章
相關標籤/搜索