Knowledge Distillation via Route Constrained Optimization

Motivation 已有的KD方法提升性能都是基於一個假設:teacher模型可以提供一種弱監督,且能被一個小student網絡學習,但是實際上一個收斂的大網絡表示空間很難被student學習,這會導致congruence loss很高 因此本文提出一種策略route constrained optimization,根據參數空間的route去選擇teacher的參數,一步一步的指導studen
相關文章
相關標籤/搜索