Revisit Knowledge Distillation: a Teacher-free Framework

Observations 通過幾組實驗觀察到 反轉Knowledge Distillation(KD)即利用student來guide teacher的話,teacher的性能依然可以得到提升 用一個比student還差的teacher來guide student的話,student的性能依然可以得到提升 因此作者得到以下觀點 KD只是一種可學習的label smoothing regulariz
相關文章
相關標籤/搜索