Transformer家族3 -- 計算效率優化(Adaptive-Span、Reformer)

1 背景 上文我們從編碼長度優化的角度,分析瞭如何對Transformer進行優化。Transformer-XL、LongFormer等模型,通過片段遞歸和attention稀疏化等方法,將長文本編碼能力提升到了很高的高度。基本已經克服了Transformer長文本捕獲能力偏弱的問題,使得下游任務模型performance得到了較大提升,特別是文本較長(大於512)的任務上。 但Transform
相關文章
相關標籤/搜索