Distilling the Knowledge in a Neural Network 論文筆記

論文:https://arxiv.org/abs/1503.02531 一、簡介     對於幾乎所有的機器學習算法,一種簡單的提高性能的方法,就是使用同樣的數據集訓練多個不同的模型,測試時取他們的各自預測值的加權平均作爲整個算法的最終輸出結果。然而,這樣做的缺點也是非常明顯的,多個模型的集合體積龐大,且運算需求極大,難以部署在大量用戶的機器上。     因此,本文主要做出了以下兩點貢獻: 提出一
相關文章
相關標籤/搜索