Knowledge Distillation: A Survey文獻閱讀

知識蒸餾用於壓縮模型 知識分爲:基於響應、基於特徵和基於關係。如下圖: 基於響應的產生softlabel。 基於特徵的可以學習特徵圖、**圖等。 關係圖爲上述兩種的混合。如兩種特徵圖的關係(FSP)、多個老師模型構建關係圖、數據的結構知識等。 蒸餾方案: 離線蒸餾、在線蒸餾、自我蒸餾。如下圖 離線蒸餾:先預訓練教師模型、蒸餾時教師模型只複製產生知識。 在現蒸餾:教師模型和學生模型同時訓練。 自我蒸
相關文章
相關標籤/搜索