【論文】Distilling the Knowledge in a Neural Network

時間 2020-12-24

原文原文鏈接

爲什麼出現知識蒸餾集成模型和預訓練好的模型效果會很好，但往往都會需要很大的內存空間和計算資源，這樣對應用於工業界非常的不友好。所以我們希望壓縮模型，使得小模型也能具有和大模型同樣好的效果。爲了達到這個目的，提出了知識蒸餾的做法。蒸餾的概念知識蒸餾使用的是Teacher-Student模型，原模型爲老師（知識的輸出者），新模型爲學生（知識的學習者），我們的目標是讓新模型近似於原模型。知識蒸餾分