RecAdam optimizer 閱讀筆記

Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less Forgetting 摘要 在優化器角度,全任務提升BERT fine-tune的效果 做法 提出 模擬預訓練,可以fine-tune時 無數據預訓練 提出 目標Shifting,可以在 模擬預訓練 同時訓練fine-tune目標 大概思想 loss使之和
相關文章
相關標籤/搜索