Knowledge Distillation via Route Constrained Optimization

Motivation 已有的KD方法提高性能都是基於一個假設:teacher模型能夠提供一種弱監督,且能被一個小student網絡學習,可是實際上一個收斂的大網絡表示空間很難被student學習,這會致使congruence loss很高 所以本文提出一種策略route constrained optimization,根據參數空間的route去選擇teacher的參數,一步一步的指導studen
相關文章
相關標籤/搜索