深度學習《梯度消失和梯度爆炸》

時間 2020-12-27

標籤深度學習神經網絡简体版

原文原文鏈接

一：梯度消失在深層網絡中，一方面由於求導法則，計算越前面層次或者時刻的梯度，會出現很多的乘法運算，很容易導致梯度消失和梯度爆炸，另一方面還受到激活函數的影響，Sigmoid函數和tanh函數會出現梯度爲0 的區域，前面也說了，BP網絡中，使用skip connection可以解決梯度消失，典型的就是ResNet。在RNN中LSTM, GRU就是解決思路。其實我感覺他們的思路有異曲同工之妙，都是

>>阅读原文<<