《Search to Distill: Pearls are Everywhere but not the Eyes》論文閱讀

https://arxiv.org/abs/1911.09074 CVPR Oral Motivation 知識蒸餾一般是由 teacher,student 兩個網絡組成,teacher 一般是 ResNet 152 這樣的大模型,student 一般是 Res50 這樣的小模型。爲了讓小模型能學的更好,student 網絡預測的結果不僅和 ground truth 算 loss,還和 teach
相關文章
相關標籤/搜索