這六大方法,如何讓 Transformer 輕鬆應對高難度長文本序列?

 2020-06-08 05:24:09 編譯 | Mr Bear 編輯 | 叢末 衆所周知,多頭注意力機制 (Multi-Head Self-Attention) 的計算開銷很大。在處理長度爲 n 的序列時,其 的時間複雜度會使得原始的 Transformer 模型難以處理長文本序列。在過去的兩年裏,已經出現了多種有效的方法來應對多頭注意力機制的複雜度問題,本文將重點討論在模型規模方面很有發展前
相關文章
相關標籤/搜索