BERT輕量化探索—模型剪枝(BERT Pruning)—Rasa維度剪枝

      因爲BERT參數衆多,模型龐大,訓練與推理速度較慢,在一些實時性要求較高應用場景沒法知足需求,最近開始探索BERT輕量化部署git BERT輕量化的方式:github 低精度量化。在模型訓練和推理中使用低精度(FP16甚至INT八、二值網絡)表示取代原有精度(FP32)表示。 模型裁剪和剪枝。減小模型層數和參數規模。 模型蒸餾。經過知識蒸餾方法[22]基於原始BERT模型蒸餾出符合上線
相關文章
相關標籤/搜索