Knowledge Distillation(知識蒸餾)

Do Deep Nets Really Need to be Deep? 雖然近年來的趨勢如BigGAN,BERT等,動輒上億參數,幾乎就是數據驅動+算力的「暴力」結果。但同時,更加輕量級的升級版模型如ALBERT也能以更少的參數和架構持續刷榜,元學習(meta learning)和零樣本學習(Zero-shot learning),還有隻需要個位數層數就能取得優異效果的GCN等,都似乎證明了「大
相關文章
相關標籤/搜索