[論文閱讀筆記 --- 12] K-ADAPTER: Infusing Knowledge into Pre-Trained Models with Adapters

Motivation         之前的預訓練模型大多是在Transformer模型輸出時,加入Multi-Task,通過大量語料無監督預訓練,提取到文本中的某種"知識"。如Bert中的Mask Token Prediction 和 Next Sentence Prediction任務。但上述方法有一個明顯的缺點,即在每次需要添加某種新的"知識"時,又需要重新預訓練整個模型,這可能會導致之前"
相關文章
相關標籤/搜索