FastBERT——自蒸餾模型與適應性調整推斷時間技術

前言 這幾天被分配到的任務是調研現有的幾種基於 BERT 的蒸餾模型,所以花了些時間瞭解了下 DistilBERT,TINYBERT 以及 FastBERT. 自從 BERT 發佈以來,各種基於 BERT 的改良版本(如 RoBERTa)層出不窮,模型效果也有着不斷的提升,但礙於這些模型過於巨大,需要大量的計算資源,在工業中的應用受限。所以,大家都在想方設法地對 BERT 進行「瘦身」,期望經瘦身
相關文章
相關標籤/搜索