RNN系列教程之三 | 基於時間的反向傳播算法和梯度消失問題

前一部分中,我們介紹瞭如何在Python和Theano框架下實現RNN,但還未深入瞭解時序反向傳播算法(BPTT)是如何計算梯度的。 這周,我們將簡單介紹BPTT,並解釋其與傳統反向傳播的區別。我們還將瞭解梯度消失問題,這也是推動LSTM(長短時記憶)和GRU(門控循環單元)(目前在NLP和其他領域最流行且有效模型)發展的原因。 1991年,梯度消失問題最早由Sepp Hochreiter發現,又
相關文章
相關標籤/搜索