深度學習模型輕量化(下)

深度學習模型輕量化(下) 2.4 蒸餾 2.4.1 蒸餾流程 蒸餾本質是student對teacher的擬合,從teacher中汲取養分,學到知識,不僅僅可以用到模型壓縮和加速中。蒸餾常見流程如下圖所示 老師和學生可以是不同的網絡結構,比如BERT蒸餾到BiLSTM網絡。但一般相似網絡結構,蒸餾效果會更好。 總體loss爲 soft_label_loss + hard_label_loss。sof
相關文章
相關標籤/搜索