BERT模型蒸餾有哪些方法?

©PaperWeekly 原創 · 作者|蔡傑 學校|北京大學碩士生 研究方向|問答系統 我們都知道預訓練模型的標準範式: pretrain-利用大量的未標記數據通過一些自監督的學習方式學習豐富的語義和句法知識。例如:Bert 的 MLM,NSP 等等。 finetune-將預訓練過程中所學到的知識應用到子任務中,以達到優異的效果。 預訓練模型在各個領域雖然帶來了巨大的提升,但是也有一些致命的問題
相關文章
相關標籤/搜索