RNN梯度消失和爆炸

原文:鏈接 也可以參考:解釋的也很清晰 建議先看第一個 一,經典的RNN結構如下圖所示:   假設我們的時間序列只有三段,  爲給定值,神經元沒有激活函數,則RNN最簡單的前向傳播過程如下: 假設在t=3時刻,損失函數爲  。 則對於一次訓練任務的損失函數爲  ,即每一時刻損失值的累加。 使用隨機梯度下降法訓練RNN其實就是對  、  、  以及  求偏導,並不斷調整它們以使L儘可能達到最小的過程
相關文章
相關標籤/搜索