Bert模型精簡方法

BERT六大瘦身大法 網絡剪枝:包括從模型中刪除一部分不太重要的權重從而產生稀疏的權重矩陣,或者直接去掉與注意力頭相對應的整個矩陣等方法來實現模型的剪枝,還有一些模型通過正則化方法實現剪枝。   低秩分解:即將原來大的權重矩陣分解多個低秩的小矩陣從而減少了運算量。這種方法既可以用於標記嵌入以節省磁盤內存,也可以用到前饋層或自注意力層的參數矩陣中以加快模型訓練速度。   知識蒸餾:通過引入教師網絡用
相關文章
相關標籤/搜索