ELECTRA論文閱讀筆記

ELECTRA模型是對BERT的一次改進,該改進主要體現在對樣本的使用效率上。具體實現方式,是引入了比較像GAN的一種架構——首先,使用一個較小的generator(生成器)將隨機mask掉的token再預測出來,然後再將重新修復後的句子交給discriminator(判別器)進行判斷,判斷input中每個單詞是否有被generator替換過。相比之下,BERT是先對一部分token進行隨機mas
相關文章
相關標籤/搜索