ICLR 2020 | ELECTRA:新型文本預訓練模型

作者 | 葉聰敏 單位 | 廈門大學 兒童節快樂 今天介紹斯坦福大學和Google Brain團隊在ICLR2020的論文,該研究提出ELECTRA語言模型,它是一種新型預訓練方法,其關鍵點在於將預訓練文本編碼器作爲標識符而非生成器,來處理現存語言模型的問題。 最近基於maskd langage modeling(MLM)的預訓練模型,比如BERT,主要是使用[MASK]令牌替換輸入序列中的部分令
相關文章
相關標籤/搜索