A Gift from Knowledge Distillation:Fast Optiization,Network Minimization and Transfer Learning

A Gift from Knowledge Distillation_Fast Optiization,Network Minimization and Transfer Learning: 本文提出以下觀點: (1)從教師網絡萃取知識不一定只從最後的softmax層這一層,還可以從多個層提取。結構如下:   (2)將從教師網絡學習到的知識用來對學生網絡進行初始化,並在之後用主流的方法進行訓練。算
相關文章
相關標籤/搜索