深入淺出：Knowledge Distillation by On-the-Fly Native Ensemble

時間 2021-01-02

原文原文鏈接

簡述：這是一篇關於知識蒸餾的論文，知識蒸餾可有效地訓練小型通用網絡模型，以滿足低內存和快速運行的需求。現有的離線蒸餾方法依賴於訓練有素的強大教師，這可以促進有利的知識發現和傳遞，但需要複雜的兩階段訓練程序。作者提出了一種用於一階段在線蒸餾的動態本地集成（ONE）學習策略。具體來說，ONE只訓練一個單一的多分支網絡，而同時動態地建立一個強大的教師來增強目標網絡的學習。模型overview O