RNN梯度消失與爆炸原理~~~~

轉自知乎作者:沉默中的思索 原文地址:https://zhuanlan.zhihu.com/p/28687529 經典的RNN結構如下圖所示:     假設我們的時間序列只有三段,  爲給定值,神經元沒有激活函數,則RNN最簡單的前向傳播過程如下: 假設在t=3時刻,損失函數爲  。 則對於一次訓練任務的損失函數爲  ,即每一時刻損失值的累加。 使用隨機梯度下降法訓練RNN其實就是對  、  、 
相關文章
相關標籤/搜索