Transformer家族2 -- 編碼長度優化（Transformer-XL、Longformer）

時間 2020-12-28

原文原文鏈接

1 背景 NLP中經常出現長程依賴問題，比如一個詞語可能和它距離上千位置的另一個詞語有關係。長程關係的建立十分困難。常見序列結構模型都有一些難點，如下。在RNN中，由於反向傳播梯度衰減和梯度爆炸問題，使得模型只能捕獲較短距離。 LSTM利用門限機制，將連乘轉變了爲連加，提升了模型長程捕獲能力，但梯度彌散問題沒有從根本上得到解決，故其最大程度只能在400左右。 Transformer利用self-

>>阅读原文<<