【論文筆記】Distilling the Knowledge in a Neural Network（知識蒸餾）

時間 2020-12-24

原文原文鏈接

簡介一般來說，優化模型預測效果有兩種方法。一是使用更加複雜的模型，二是採用集成策略。這兩種方法在實際應用中都會造成很大的計算開銷。因此，本文提出了一種叫做知識蒸餾的方法，從大模型中提取知識給小模型，在減少模型複雜度的同時保證預測效果。通常我們認爲模型從訓練中得到的知識就是神經網絡的參數，更確切的說法是從輸入向量到輸出向量的映射。所以我們訓練小模型的目標就是讓它學習大模型輸入到輸出的映射關係。