ICLR 2020 | reformer高效處理長序列，單機能跑，計算資源貧困人士的福音

時間 2021-01-10

原文原文鏈接

基於Transformer的各種巨型模型在各種自然語言處理任務中常常能夠取得最優結果，但這些模型的訓練成本往往過高，在針對長序列文本上尤甚。爲此，本文提出兩種技術以改善基於Transformer的這類模型，名爲Reformer。第一，使用局部敏感hash，替換原始的點乘方式的attention，從而將其空間複雜度從O(L^2)降低到O(Llog L)，其中L表示文本序列的長度。第二，使用逆殘差層代

>>阅读原文<<