模型加速一:知識蒸餾(Knowledge Distillation)

一 背景 知識蒸餾(KD)是想將複雜模型(teacher)中的dark knowledge遷移到簡單模型(student)中去,一般來說,teacher具有強大的能力和表現,而student則更爲緊湊。通過知識蒸餾,希望student能儘可能逼近亦或是超過teacher,從而用更少的複雜度來獲得類似的預測效果。Hinton在Distilling the Knowledge in a Neural
相關文章
相關標籤/搜索