【論文閱讀】Distilling the Knowledge in a Neural Network

論文連接 參考博客html 知識蒸餾(knowledge distillation) 動機 在機器學習中,咱們傾向於使用很是類似的模型進行訓練(train)和部署(depolyment),儘管這兩個階段顯然有不一樣的需求:git 訓練階段(train)可使用大型數據集訓練深度模型,消耗大量計算資源和時間來得到最佳結果 推理階段(inference)對時間和計算資源佔用特別敏感 首先能夠明確的一點是
相關文章
相關標籤/搜索