梯度爆炸,消失,以及常用函數。

梯度爆炸,梯度消失 讓我們假設輸入網絡的順序是一個20字的句子:「I grew up in France,……… I speak French fluently.」 從上面的示例可以看出,RNN要預測序列末尾的「French」一詞,就需要來自「Frence」一詞的信息,該信息出現在句子的開頭。序列數據之間的這種依賴關係稱爲長期依賴關係,因爲相關信息「Frence」與進行預測「French」所需的點
相關文章
相關標籤/搜索