【DL】模型蒸餾Distillation

過去一直follow着transformer系列模型的進展,從BERT到GPT2再到XLNet。然而隨着模型體積增大,線上性能也越來越差,所以決定開一條新線,開始follow模型壓縮之模型蒸餾的故事線。 Hinton在NIPS2014[1]提出了知識蒸餾(Knowledge Distillation)的概念,旨在把一個大模型或者多個模型ensemble學到的知識遷移到另一個輕量級單模型上,方便部署
相關文章
相關標籤/搜索