【PTM】Transformer-XL:捕捉超長上下文依賴

今天學習的是谷歌大腦的同學和 CMU 的同學於 2019 年聯合出品的論文《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》,目前被引次數超 200 次。 這篇論文提出的 Transformer-XL 主要是針對 Transformer 在解決長依賴問題中受到固定長度上下文的限制,如 Bert 採用的
相關文章
相關標籤/搜索