【DL學習筆記】4:長短期記憶網絡(Long Short-Term Memory)

在前面學習的循環網路中,因爲梯度中有參數weight_hh的k次冪的存在,所以會導致梯度彌散和梯度爆炸的問題。對於梯度爆炸問題,可以用PyTorch筆記22最後面給出的梯度裁剪的方式解決。但是梯度彌散的問題沒法這樣直接解決,LSTM一定程度上解決了這樣的問題,從而爲長序列記憶提供了較好的解決方案。 長序列難題 在原始的循環網絡中,實際上能處理的記憶信息比較短。如對自然語言的處理中,只能記住之前較少
相關文章
相關標籤/搜索