RoBERTa：一種魯棒地優化BERT預訓練的方法

時間 2020-12-30

原文原文鏈接

RoBERTa：一種魯棒地優化BERT預訓練的方法文章目錄 RoBERTa：一種魯棒地優化BERT預訓練的方法前言背景實驗靜態 VS 動態 Masking 輸入形式與NSP任務更大的batch_size 更大的BPE詞彙表總結使用最後前言本文提出了一種對BERT預訓練進行精細調參和調整訓練集的方法，用這種方法對BERT進行預訓練還能提升性能。自訓練的方法，諸如 ELMo、G

>>阅读原文<<