2020李宏毅學習筆記——34.Network Compression(3_6)

3.Knowledge Distillation(知識蒸餾) 整個知識蒸餾過程中會用到兩個模型:大模型(Teacher Net)和小模型(Student Net)。 3.1 具體方法 先用大模型在數據集上學習到收斂,並且這個大模型要學的還不錯,因爲後面我們要用大模型當老師來教小模型學習嘛,如果大模型本身都沒學好還教個錘子,對吧?1和7長得蠻像的。所以這裏的損失函數用的是交叉熵,不能用簡單的平方差之
相關文章
相關標籤/搜索