Knowledge Distillation by On-the-Fly Native Ensemble論文解讀

1. 網絡結構:        Gate爲全連接網絡,用來學習哪個網絡更重要。目前利用全連接網絡選擇網絡部件重要性的方法很流行。「三個臭皮匠頂個諸葛亮?」,感覺很像bagging方法。 2. 損失函數:   訓練時softmax都有溫度T=3蒸餾,測試時就恢復T=1。   最終的Loss   第一項代表各個分支的損失,第二項代表最後Teacher的損失,第三項代表各分支和Teacher的KL散度。
相關文章
相關標籤/搜索