【論文】Distilling the Knowledge in a Neural Network

爲什麼出現知識蒸餾 集成模型和預訓練好的模型效果會很好,但往往都會需要很大的內存空間和計算資源,這樣對應用於工業界非常的不友好。所以我們希望壓縮模型,使得小模型也能具有和大模型同樣好的效果。爲了達到這個目的,提出了知識蒸餾的做法。 蒸餾的概念 知識蒸餾使用的是Teacher-Student模型,原模型爲老師(知識的輸出者),新模型爲學生(知識的學習者),我們的目標是讓新模型近似於原模型。知識蒸餾分
相關文章
相關標籤/搜索