ELECTRA:超越BERT,2019年最佳NLP預訓練模型

作者 | 李如 來源 | NLPCAB(ID:rgznai100) 【導讀】BERT推出這一年來,除了XLNet,其他的改進都沒帶來太多驚喜,無非是越堆越大的模型和數據,以及動輒1024塊TPU,讓工程師們不知道如何落地。今天要介紹的ELECTRA是我在ICLR盲審中淘到的寶貝(9月25日已截稿),也是BERT推出以來我見過最讚的改進,通過類似GAN的結構和新的預訓練任務,在更少的參數量和數據下,
相關文章
相關標籤/搜索