BART: Denoising Sequence-to-Sequence Pre-training翻譯

摘要 我們介紹了BART,一種用於預訓練序列到序列模型的去噪自編碼器。通過(1)使用任意噪聲函數來對文本進行加噪,並(2)學習模型以重建原始文本來訓練BART。它使用基於標準Tranformer的神經機器翻譯架構,儘管它很簡單,但可以看作是BERT(由於雙向編碼器),GPT(具有從左至右解碼器)以及許多其他最近的預訓練方案的擴展。我們評估了多種加噪方法,發現通過隨機改變原始句子的排列順序並使用新的
相關文章
相關標籤/搜索