知識蒸餾Knowledge Distillation論文彙總

FITNETS: HINTS FOR THIN DEEP NETS 論文連接 該論文擴展了知識蒸餾的方法,student網絡比teacher更深、更「瘦」,不只使用teacher的輸出做爲訓練student的soft targets,並且使用teacher學到的中間表示(intermediate representations)做爲hint,改進學生的訓練過程和最終表現。更深的模型泛化性能更好,使
相關文章
相關標籤/搜索