【模型壓縮】知識蒸餾經典解讀

作者 | 小小@字節跳動 整理 | NewBeeNLP 寫在前面 知識蒸餾是一種模型壓縮方法,是一種基於「教師-學生網絡思想」的訓練方法,由於其簡單,有效,在工業界被廣泛應用。這一技術的理論來自於2015年Hinton發表的一篇神作:Distilling the Knowledge in a Neural Network[1] Knowledge Distillation,簡稱KD,顧名思義,就是
相關文章
相關標籤/搜索