蒸餾法訓練網絡

時間 2021-01-16

原文原文鏈接

《Distilling the Knowledge in a Neural Network》摘要在ML領域中有一種最爲簡單的提升模型效果的方式，在同一訓練集上訓練多個不同的模型，在預測階段採用綜合均值作爲預測值。但是，運用這樣的組合模型需要太多的計算資源，特別是當單個模型都非常大的時候。已經有相關的研究表明，複雜模型或者組合模型的中「知識」通過合適的方式是可以遷移到一個相對簡單模型之中，進而方

>>阅读原文<<