Transformer-XL：釋放注意力模型的潛力

時間 2021-01-07

原文原文鏈接

文 / Zhilin Yang 和 Quoc Le，Google AI 團隊爲了正確理解一篇文章，讀者有時需要返回前文，參考在幾千字之前出現的一個詞或句子。這是一個長程依賴性的示例。長程依賴現象在序列數據中非常常見，我們必須理解其含義，這樣才能處理很多現實任務。雖然人們可以很自然地這樣做，但使用神經網絡對長期依賴關係進行建模仍然是一項挑戰。門控循環神經網絡 (RNN) 和梯度裁剪技術可以提升對長