DynaBERT和fastbert bert 速度提升

神經網絡模型除了部署在遠程服務器之外,也會部署在手機、音響等智能硬件上。比如在自動駕駛的場景下,大部分模型都得放在車上的終端裏,不然荒山野嶺沒有網的時候就尷尬了。對於BERT這類大模型來說,也有部署在終端的需求,但考慮到設備的運算速度和內存大小,是沒法部署完整版的,必須對模型進行瘦身壓縮。 說到模型壓縮,常用的方法有以下幾種: 量化:用FP16或者INT8代替模型參數,一是佔用了更少內存,二是接近
相關文章
相關標籤/搜索