系列論文閱讀之知識蒸餾(二)《FitNets : Hints for Thin Deep Nets》

本文成果:   從一個wide and deep的網路蒸餾成一個thin and deeper的網絡。 主要的方法如下圖所示: 實際上是在KD的基礎上,增加了一箇中間層的知識蒸餾。 以下是KD的主要方法: 訓練要點: 兩個loss function: (1)Teacher網絡的某一中間層的權值爲Wt=Whint,Student網絡的某一中間層的權值爲Ws=Wguided。使用一個映射函數Wr來使得
相關文章
相關標籤/搜索