【Distill 系列:三】On the Efficacy of Knowledge Distillation

https://arxiv.org/pdf/1910.01348.pdf teacher不是性能越高越好(這個我實驗驗證得到的結果一致) teacher訓練中early stop(未嘗試),蒸餾中early stop(我這裏不work)有利於提高蒸餾效果 Method 一個潛意識的猜想:性能越高的teacher的蒸餾效果越好 可以看到,隨着teacher模型變大,蒸餾的student性能並沒有依次
相關文章
相關標籤/搜索