推薦：基於知識蒸餾的BERT模型壓縮

時間 2020-12-30

原文原文鏈接

作者：孫思琦、成宇、甘哲、劉晶晶本文約 1800字，建議閱讀 5分鐘。本文爲你介紹「耐心的知識蒸餾」模型。在過去一年裏，語言模型的研究有了許多突破性的進展，比如GPT用來生成的句子足夠以假亂真[1]；BERT, XLNet, RoBERTa [2,3,4]等等作爲特徵提取器更是橫掃各大NLP榜單。但是，這些模型的參數量也相當驚人，比如BERT-base有一億零九百萬參數，BERT-la

>>阅读原文<<

相關文章

相關標籤/搜索

不推薦，推薦Oakley

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<