這六大方法，如何讓 Transformer 輕鬆應對高難度長文本序列？

時間 2021-01-15

標籤人工智能简体版

原文原文鏈接

2020-06-08 05:24:09 編譯 | Mr Bear 編輯 | 叢末衆所周知，多頭注意力機制 (Multi-Head Self-Attention) 的計算開銷很大。在處理長度爲 n 的序列時，其的時間複雜度會使得原始的 Transformer 模型難以處理長文本序列。在過去的兩年裏，已經出現了多種有效的方法來應對多頭注意力機制的複雜度問題，本文將重點討論在模型規模方面很有發展前

>>阅读原文<<