ICLR 2020 | reformer高效處理長序列,單機能跑,計算資源貧困人士的福音

基於Transformer的各種巨型模型在各種自然語言處理任務中常常能夠取得最優結果,但這些模型的訓練成本往往過高,在針對長序列文本上尤甚。爲此,本文提出兩種技術以改善基於Transformer的這類模型,名爲Reformer。第一,使用局部敏感hash,替換原始的點乘方式的attention,從而將其空間複雜度從O(L^2)降低到O(Llog L),其中L表示文本序列的長度。第二,使用逆殘差層代
相關文章
相關標籤/搜索