參數少一半,效果還更好,天津大學和微軟提出Transformer壓縮模型

  因爲在天然語言處理任務中的突出表現,基於 Transformer 的預訓練語言模型是 NLP 領域的研究重點。考慮到模型參數量過大,致使其訓練困難,部署不方便,研究人員一直在探究壓縮模型的方法。近日,天津大學聯合微軟亞洲研究院提出了 Transformer 的壓縮方法,不只減小了近一半的參數量,模型在語言建模和神經機器翻譯任務的表現也有所提高。這一研究可幫助在一些算力資源較小的環境中部署預訓練
相關文章
相關標籤/搜索