在線多分支融合——Knowledge Distillation by On-the-Fly Native Ensemble

"Knowledge Distillation by On-the-Fly Native Ensemble"這篇文章基於給定的基礎網絡(如Resnet等),通過在網絡深層次構造多分支結構,且每個分支作爲學生網絡,能夠融合生成推理性能更強的教師網絡。進而,通過教師/學生網絡的共同在線學習、教師知識的反饋蒸餾,能夠訓練得到性能優越的單分支模型或多分支融合模型。 基於ONE(On-the-Fly Nat
相關文章
相關標籤/搜索