深度學習 《梯度消失和梯度爆炸》

一:梯度消失 在深層網絡中,一方面由於求導法則,計算越前面層次或者時刻的梯度,會出現很多的乘法運算,很容易導致梯度消失和梯度爆炸,另一方面還受到激活函數的影響,Sigmoid函數和tanh函數會出現梯度爲0 的區域,前面也說了,BP網絡中,使用skip connection可以解決梯度消失,典型的就是ResNet。在RNN中LSTM, GRU就是解決思路。 其實我感覺他們的思路有異曲同工之妙,都是
相關文章
相關標籤/搜索