RNN的BPTT算法中的梯度消失問題

參考資料鏈接:https://zhuanlan.zhihu.com/p/22338087 隨時間的反向傳播(BPTT) 讓我們先迅速回憶一下RNN的基本公式,注意到這裏在符號上稍稍做了改變(變成),這只是爲了和我參考的一些資料保持一致。 同樣把損失值定義爲交叉熵損失,如下: 這裏,表示時刻正確的詞,是我們的預測。通常我們會把整個句子作爲一個訓練樣本,所以總體錯誤是每一時刻的錯誤的加和。 我們的目標
相關文章
相關標籤/搜索