[nlp] 梯度消失&梯度爆炸

梯度爆炸(exploding gradient) : 梯度裁剪 (設置閾值 >=2的設置爲2) 梯度消失 (vanishing gradient) 初始化改變(激活函數改變爲relu,tanh)(identity initialization) LSTM(後面會講)鏈式法則×變+,有相加的部分,避免梯度消失 殘差網絡 (Residual Networks) (跳過一些,走過的神經元少了) 批處理歸
相關文章
相關標籤/搜索