閱讀筆記 -- ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS

本文的主要貢獻: 將BERT與類似於GAN的結構相結合,並輔以新的預訓練任務來做預訓練 – 在更少的參數量和數據下,效果超越BERT,並且僅用1/4的算力就達到了SOTA模型RoBERTa的效果: Introduction: 當下流行的MLM(Masked Language Modeling)方法會大大增加計算開銷,原因:模型只學到每個example中15%的tokens信息,而且有些token可
相關文章
相關標籤/搜索