RNN梯度消失和爆炸

時間 2020-12-27

原文原文鏈接

原文：鏈接也可以參考：解釋的也很清晰建議先看第一個一，經典的RNN結構如下圖所示：假設我們的時間序列只有三段，爲給定值，神經元沒有激活函數，則RNN最簡單的前向傳播過程如下：假設在t=3時刻，損失函數爲。則對於一次訓練任務的損失函數爲，即每一時刻損失值的累加。使用隨機梯度下降法訓練RNN其實就是對、、以及求偏導，並不斷調整它們以使L儘可能達到最小的過程

>>阅读原文<<