深入淺出:Knowledge Distillation by On-the-Fly Native Ensemble

簡述: 這是一篇關於知識蒸餾的論文,知識蒸餾可有效地訓練小型通用網絡模型,以滿足低內存和快速運行的需求。現有的離線蒸餾方法依賴於訓練有素的強大教師,這可以促進有利的知識發現和傳遞,但需要複雜的兩階段訓練程序。作者提出了一種用於一階段在線蒸餾的動態本地集成(ONE)學習策略。具體來說,ONE只訓練一個單一的多分支網絡,而同時動態地建立一個強大的教師來增強目標網絡的學習。   模型overview O
相關文章
相關標籤/搜索