ICLR 2020|ELECTRA

MLM(Masked language modeling)方式的預訓練語言模型如BERT是在輸入上用[MASK]遮蔽掉部分tokens,再訓練一個模型以重建出原始的tokens。這種方式遷移到下游NLP任務時能夠得到較好的結果,已然成爲NLP任務中的標配。但是這種預訓練方法往往需要大量的算力。爲此,本文提出一種樣本效率更爲高效的預訓練任務:替換token檢測(replaced token dete
相關文章
相關標籤/搜索