閱讀筆記 -- ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS

時間 2021-01-15

原文原文鏈接

本文的主要貢獻：將BERT與類似於GAN的結構相結合，並輔以新的預訓練任務來做預訓練 – 在更少的參數量和數據下，效果超越BERT，並且僅用1/4的算力就達到了SOTA模型RoBERTa的效果： Introduction：當下流行的MLM（Masked Language Modeling）方法會大大增加計算開銷，原因：模型只學到每個example中15%的tokens信息，而且有些token可