華爲提出新型動態 BERT 模型,可自適應寬度和深度並保持高性能

image.png

技術編輯:王治治丨發自 HOME
SegmentFault 思否報道丨公衆號:SegmentFaultsegmentfault


近日,華爲諾亞方舟實驗室發佈了一篇論文《DynaBERT: Dynamic BERT with Adaptive Width and Depth》。在該論文中,實驗室的研究者提出了一種新型動態 BERT 模型 —— DynaBERT。網絡

據論文做者介紹,像 BERT 和 RoBERTa 這樣的預訓練語言模型雖然在許多天然語言處理任務中功能強大,但計算和內存都很昂貴。爲了緩解這個問題,一種方法是在部署前對它們進行特定任務的壓縮。性能

然而,目前關於 BERT 壓縮的工做一般是將大的 BERT 模型壓縮成一個固定的小尺寸,並不能徹底知足不一樣邊緣設備不一樣硬件性能的要求。而 DynaBERT 則能夠在自適應的寬度和深度下運行。spa

DynaBERT 的訓練過程包括首先訓練一個寬度自適應的 BERT,而後經過將全尺寸模型中的知識提煉成小的子網絡,容許寬度和深度自適應。網絡重佈線也被用來保留更多的子網絡共享的更重要的注意力頭和神經元。在各類效率約束下的綜合實驗證實,華爲諾亞方舟實驗室提出的 RoBERTa 在最大尺寸時具備與 BERT 至關的性能,而在較小的寬度和深度下,其性能始終優於現有的 BERT 壓縮方法。blog

clipboard.png

相關文章
相關標籤/搜索