MobileBERT:一個在資源有限設備上使用的BERT模型

點擊上方「AI公園」,關注公衆號,選擇加「星標「或「置頂」 作者:Viktor Karlsson 編譯:ronghuaiyang 導讀 在蒸餾之後對學生模型再進行微調,進一步提升能力。 隨着NLP模型的大小增加到數千億個參數,創建這些模型的更緊湊表示的重要性也隨之增加。知識蒸餾成功地實現了這一點,在一個例子中,教師模型的性能的96%保留在了一個小7倍的模型中。然而,在設計教師模型時,知識的提煉仍然
相關文章
相關標籤/搜索