DynaBERT和fastbert bert 速度提升

時間 2021-01-18

原文原文鏈接

神經網絡模型除了部署在遠程服務器之外，也會部署在手機、音響等智能硬件上。比如在自動駕駛的場景下，大部分模型都得放在車上的終端裏，不然荒山野嶺沒有網的時候就尷尬了。對於BERT這類大模型來說，也有部署在終端的需求，但考慮到設備的運算速度和內存大小，是沒法部署完整版的，必須對模型進行瘦身壓縮。說到模型壓縮，常用的方法有以下幾種：量化：用FP16或者INT8代替模型參數，一是佔用了更少內存，二是接近