Transformer家族2 -- 編碼長度優化(Transformer-XL、Longformer)

1 背景 NLP中經常出現長程依賴問題,比如一個詞語可能和它距離上千位置的另一個詞語有關係。長程關係的建立十分困難。常見序列結構模型都有一些難點,如下。 在RNN中,由於反向傳播梯度衰減和梯度爆炸問題,使得模型只能捕獲較短距離。 LSTM利用門限機制,將連乘轉變了爲連加,提升了模型長程捕獲能力,但梯度彌散問題沒有從根本上得到解決,故其最大程度只能在400左右。 Transformer利用self-
相關文章
相關標籤/搜索