知識蒸餾

知識蒸餾 Distilling the Knowledge in a Neural Network 這篇文章是2015年Hiton大神完成的一項黑科技技術,其第一次涉及了知識蒸餾(暗知識提取)的概念。可以從遷移學習和模型壓縮的角度去理解這件事。 重點在於提出soft target來輔助hard target一起訓練,而soft target來自於大模型的預測輸出,爲什麼要用soft target?
相關文章
相關標籤/搜索