Deep Model Compression: Distilling Knowledge from Noisy Teachers論文初讀

目錄 方法   加入擾動   與正則化的關係   方法流程 對比實驗   固定sigma,改變alpha   在teacher中加噪聲 VS 在student中加噪聲   其他實驗不重要,略  方法   加入擾動 如公式2,在輸出層的logits上加入擾動 對一個teacher的擾動不僅可以模擬多個teacher,而且會在loss中加入噪音,產生正則化的效果   與正則化的關係 如上式子所示,加入
相關文章
相關標籤/搜索