深度學習之如何防止梯度爆炸/梯度消失?

什麼是梯度爆炸/梯度消失? 深度神經網絡訓練的時候,採用的是反向傳播方式,該方式使用鏈式求導,計算每層梯度的時候會涉及一些連乘操作,因此如果網絡過深。 那麼如果連乘的因子大部分小於1,最後乘積的結果可能趨於0,也就是梯度消失,後面的網絡層的參數不發生變化. 那麼如果連乘的因子大部分大於1,最後乘積可能趨於無窮,這就是梯度爆炸 如何防止梯度消失? sigmoid容易發生,更換激活函數爲 ReLU即可
相關文章
相關標籤/搜索