RNN梯度爆炸原因和LSTM解決梯度消失解釋

  RNN梯度爆炸原因: 經典的RNN結構如下圖所示:     假設我們的時間序列只有三段, 爲給定值,神經元沒有激活函數,則RNN最簡單的前向傳播過程如下: 假設在t=3時刻,損失函數爲 。 則對於一次訓練任務的損失函數爲 ,即每一時刻損失值的累加。 使用隨機梯度下降法訓練RNN其實就是對 、 、 以及 求偏導,並不斷調整它們以使L儘可能達到最小的過程。 現在假設我們我們的時間序列只有三段,t1
相關文章
相關標籤/搜索