獨家 | 基於知識蒸餾的BERT模型壓縮

時間 2020-12-30

原文原文鏈接

作者：孫思琦、成宇、甘哲、劉晶晶本文約 1800字，建議閱讀 5分鐘。本文爲你介紹「耐心的知識蒸餾」模型。數據派THU後臺回覆「191010」，獲取論文地址。在過去一年裏，語言模型的研究有了許多突破性的進展，比如GPT用來生成的句子足夠以假亂真[1]；BERT, XLNet, RoBERTa [2,3,4]等等作爲特徵提取器更是橫掃各大NLP榜單。但是，這些模型的參數量也相當驚人，比

>>阅读原文<<