[深度學習/人工智能]梯度消失與梯度爆炸

出現緣由

梯度消失和梯度爆炸是由於在神經網絡中,因爲網絡層數增多,致使求取的梯度趨於 \infty (梯度爆炸)和趨於 0(梯度消失)的狀況。
參考html

解決梯度消失與梯度爆炸的方法

  1. 梯度剪切:防止梯度爆炸,即當梯度超過必定閾值則將梯度限制在這個閾值範圍內
  2. 正則化項:
    L o s s = ( y W T x ) 2 + α w 2 Loss=(y-W^Tx)^2+\alpha||w||^2
    其中, α \alpha 是正則項係數,做用是防止w過大或者太小
  3. 激活函數改用ReLU
  4. 殘差神經網絡(跨層鏈接)
  5. LSTM:每一層的單元均可以選擇遺忘和記憶的狀態