Knowledge Distillation via Route Constrained Optimization

時間 2020-07-20

標籤 knowledge distillation route constrained optimization 简体版

原文原文鏈接

Motivation 已有的KD方法提高性能都是基於一個假設：teacher模型能夠提供一種弱監督，且能被一個小student網絡學習，可是實際上一個收斂的大網絡表示空間很難被student學習，這會致使congruence loss很高所以本文提出一種策略route constrained optimization，根據參數空間的route去選擇teacher的參數，一步一步的指導studen

>>阅读原文<<