Transformer家族3 -- 計算效率優化（Adaptive-Span、Reformer）

時間 2020-12-22

標籤深度學習自然語言處理 nlp 简体版

原文原文鏈接

1 背景上文我們從編碼長度優化的角度，分析瞭如何對Transformer進行優化。Transformer-XL、LongFormer等模型，通過片段遞歸和attention稀疏化等方法，將長文本編碼能力提升到了很高的高度。基本已經克服了Transformer長文本捕獲能力偏弱的問題，使得下游任務模型performance得到了較大提升，特別是文本較長（大於512）的任務上。但Transform

>>阅读原文<<