論文閱讀:Reducing Transformer Depth On Demand With Structured Dropout

Introduction 這篇paper是做Transformer壓縮的,但其實bert的核心也就是transformer,這篇paper的實驗裏也做了bert的壓縮。作者的主要工作是提出了LayerDrop的方法,即一種結構化的dropout的方法來對transformer模型進行訓練,從而在不需要fine-tune的情況下選擇一個大網絡的子網絡。 這篇paper方法的核心是通過Dropout來
相關文章
相關標籤/搜索