MobileBERT —資源受限設備上的任務無關BERT

  隨着NLP模型的規模增加到數千億個參數,對這些模型進行高效的壓縮也越來越重要。知識蒸餾成功地實現了這一目標,典型例子:student模型壓縮了1/7卻達到了模型96%的效果(https://medium.com/dair-ai/tinybert-size-does-matter-but-how-you-train-it-can-be-more-important-a5834831fa7d)。但
相關文章
相關標籤/搜索