【PTM】Transformer-XL：捕捉超長上下文依賴

時間 2021-01-20

標籤數據挖掘 Embedding 算法 python 機器學習人工智能 java 欄目設計模式简体版

原文原文鏈接

今天學習的是谷歌大腦的同學和 CMU 的同學於 2019 年聯合出品的論文《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》，目前被引次數超 200 次。這篇論文提出的 Transformer-XL 主要是針對 Transformer 在解決長依賴問題中受到固定長度上下文的限制，如 Bert 採用的

>>阅读原文<<