Transformer-XL詳解

1. 介紹 爲了幫助理解XLNet,本文對其核心框架Transformer-XL作一個解讀。本文發表在ACL2019上,論文想要解決的問題:如何賦予編碼器捕獲長距離依賴的能力。 目前在自然語言處理領域,Transformer的編碼能力超越了RNN,但是對長距離依賴的建模能力仍然不足。在基於LSTM的模型中,爲了建模長距離依賴,提出了門控機制和梯度裁剪,目前可以編碼的最長距離在200左右。在基於Tr
相關文章
相關標籤/搜索