深度學習模型輕量化(下)

深度學習模型輕量化(下)web 2.4 蒸餾數組 2.4.1 蒸餾流程緩存 蒸餾本質是student對teacher的擬合,從teacher中汲取營養,學到知識,不只僅能夠用到模型壓縮和加速中。蒸餾常見流程以下圖所示網絡 老師和學生能夠是不一樣的網絡結構,好比BERT蒸餾到BiLSTM網絡。但通常類似網絡結構,蒸餾效果會更好。多線程 整體loss爲 soft_label_loss + hard_l
相關文章
相關標籤/搜索