2020李宏毅學習筆記——34.Network Compression(3_6)

時間 2021-01-02

原文原文鏈接

3.Knowledge Distillation（知識蒸餾）整個知識蒸餾過程中會用到兩個模型：大模型（Teacher Net）和小模型（Student Net）。 3.1 具體方法先用大模型在數據集上學習到收斂，並且這個大模型要學的還不錯，因爲後面我們要用大模型當老師來教小模型學習嘛，如果大模型本身都沒學好還教個錘子，對吧？1和7長得蠻像的。所以這裏的損失函數用的是交叉熵，不能用簡單的平方差之