Transformer-XL:釋放注意力模型的潛力

文 / Zhilin Yang 和 Quoc Le,Google AI 團隊 爲了正確理解一篇文章,讀者有時需要返回前文,參考在幾千字之前出現的一個詞或句子。這是一個長程依賴性的示例。長程依賴現象在序列數據中非常常見,我們必須理解其含義,這樣才能處理很多現實任務。雖然人們可以很自然地這樣做,但使用神經網絡對長期依賴關係進行建模仍然是一項挑戰。門控循環神經網絡 (RNN) 和梯度裁剪技術可以提升對長
相關文章
相關標籤/搜索