ELECTRA中文預訓練模型開源,110個參數,性能媲美BERT

時間 2020-08-03

標籤 electra 中文訓練模型開源參數性能媲美 bert 欄目系統性能简体版

原文原文鏈接

感謝參考原文-http://bjbsair.com/2020-03-27...
在去年11月份，NLP大神Manning聯合谷歌作的ELECTRA一經發布，迅速火爆整個NLP圈，其中ELECTRA-small模型參數量僅爲 BERT-base模型的1/10，性能卻依然能與BERT、RoBERTa等模型相媲美。html

在前不久，谷歌終於開源了ELECTRA，併發布了預訓練模型，這對於缺大算力的高校和企業，簡直是一大福音。git

然而，其發佈的預訓練模型只是針對英語，卻非如BERT那樣是多語言版本。對於其餘語言（例如中文）的研究者來講，則很是遺憾。github

針對這一問題，今天哈工大訊飛聯合實驗室（HFL）基於ELECTRA開源代碼，發佈了中文版的 ELECTRA 預訓練模型。併發

一、ELECTRA框架

ELECTRA預訓練模型的做者是斯坦福SAIL實驗室Manning組和谷歌大腦研究團隊，初次出現是在2019年北京智源大會上面。做爲一種新的文本預訓練模型，ELECTRA 新穎的設計思路、更少的計算資源消耗和更少的參數，迅速引發了大批關注者。特別是在去年 11 月 ICLR 2020 論文接收出爐後，曾引發NLP圈內不小的轟動。性能

論文連接：學習

https://openreview.net/forum?...ui

論文中這張圖可以說明一切問題：spa

圖注：右圖是左圖放大的結果。.net

如上圖所示，ELECTRA模型可以在訓練步長更少的前提下獲得了比其餘預訓練模型更好的效果。一樣，在模型大小、數據和計算相同的狀況下，ELECTRA的性能明顯優於基於MLM的方法，如BERT和XLNet。

因此，ELECTRA 與現有的生成式的語言表示學習方法相比，前者具備更高的計算效率和更少的參數（ELECTRA-small的參數量僅爲BERT-base的 1/10）。

ELECTRA可以取得如此優異結果，基於其新穎的預訓練框架，其中包含兩個部分：Generator和Discriminator。

Generator: 一個小的MLM，在[MASK]的位置預測原來的詞。Generator將用來把輸入文本作部分詞的替換。
Discriminator: 判斷輸入句子中的每一個詞是否被替換，即便用Replaced Token Detection (RTD)預訓練任務，取代了BERT原始的Masked Language Model (MLM)。須要注意的是這裏並無使用Next Sentence Prediction (NSP)任務。

在預訓練階段結束以後，只使用Discriminator做爲下游任務精調的基模型。

換句話說，做者們把CV領域的GAN運用到了天然語言處理。

值得注意的是，儘管與GAN的訓練目標類似，但仍存在一些關鍵差別。首先，若是生成器碰巧生成了正確的token，則該token被視爲「真實」而不是「僞造」；因此模型可以適度改善下游任務的結果。更重要的是，生成器使用最大似然來訓練，而不是經過對抗性訓練來欺騙判別器。

二、中文ELECTRA預訓練模型

目前已有的開源 ELECTRA 預訓練模型只是英文的預訓練模型。但世界上還有許多其餘語言（例如中文）研究的學者，他們須要與其相應的語言預訓練模型。

然而，谷歌官方除了BERT、RoBERTa等預訓練模型有多語言版本外，其餘例如XLNet、T5都沒有相應的多語言版本，只有英文。其中緣由在於相比於只在英語上作預訓練，多語言的預訓練須要收集相應語料，須要調配不一樣語言語料的比例等，比較麻煩。所以大機率上，ELECTRA 也不會出中文版或多語言版的預訓練模型。

而另外一方面，做爲中文社區，咱們國人本身對如何作中文的預訓練則更爲了解，咱們本身來作相應的預訓練可能會比谷歌官方來作會更好。

由哈工大訊飛聯合實驗室資深級研究員、研究主管崔一鳴所帶領的團隊以前曾作過系列相似的開源工做，即基於開源預訓練代碼，加上中文數據集來訓練中文版預訓練模型。例如中文版的系列BERT模型、中文版XLNet等，在GitHub上開源後反響不錯，在許多中文評測任務中也曾有很多隊伍使用他們開源的預訓練模型進行改進。

開源地址：https://github.com/ymcui/Chin...

在谷歌開源ELECTRA以後，崔一鳴等人再次推出中文版 ELECTRA。

訓練數據集，仍和以前訓練BERT系列模型所用數據是一致的，主要來自大規模中文維基及通用文本（中文網頁爬取和清洗），總token達到5.4B。詞表方面沿用了谷歌原版BERT的WordPiece詞表，包含21128個token。

在本次的開源中，崔一鳴等人只發布了ELECTRA-base 和ELECTRA-small 兩個模型。據崔一鳴表示，large版本因爲參數較多，超參設置比較困難，所以模型發佈會相應延後。

已發佈的兩個版本各自訓練了大約7天時間，因爲small版本的參數僅爲base版本的1/10，在訓練中，崔一鳴等人將其batch調爲1024（是base的4倍）。具體細節和超參以下（未說起的參數保持默認）：

ELECTRA-base:12層，隱層768，12個注意力頭，學習率2e-4，batch256，最大長度512，訓練1M步
ELECTRA-small:12層，隱層256，4個注意力頭，學習率5e-4，batch1024，最大長度512，訓練1M步

ELECTRA-small 僅 46 M。

在效果上，崔一鳴等人將之與他們以前作的系列中文版預訓練模型進行了效果對比。

對比模型包括：ELECTRA-small/base、BERT-base、BERT-wwm、BERT-wwm-ext、RoBERTa-wwm-ext、RBT3。

對比任務有六個：

CMRC 2018 (Cui et al., 2019)：篇章片斷抽取型閱讀理解（簡體中文）
DRCD (Shao et al., 2018)：篇章片斷抽取型閱讀理解（繁體中文）
XNLI (Conneau et al., 2018)：天然語言推斷（三分類）
ChnSentiCorp：情感分析（二分類）
LCQMC (Liu et al., 2018)：句對匹配（二分類）
BQ Corpus (Chen et al., 2018)：句對匹配（二分類）

在下游任務精調中，ELECTRA-small/base模型的學習率設爲原論文默認的3e-4和1e-4。值得注意的是，這裏的精調並無針對任何任務進行參數精調。爲了保證結果的可靠性，對於同一模型，他們使用不一樣隨機種子訓練10遍，彙報模型性能的最大值和平均值（括號內爲平均值）。

效果以下：

簡體中文閱讀理解：CMRC 2018（評價指標爲：EM / F1）

繁體中文閱讀理解：DRCD（評價指標爲：EM / F1）

天然語言推斷：XNLI（評價指標爲：Accuracy）

情感分析：ChnSentiCorp（評價指標爲：Accuracy）

句對分類：LCQMC（評價指標爲：Accuracy）

句對分類：BQ Corpus（評價指標爲：Accuracy）

從以上的結果能夠看出，對於ELECTRA-small模型，其效果在多數任務上顯著超過3層RoBERTa效果（RBT3），甚至是接近BERT-base的效果，而在參數量上只有BERT-base模型的1/10。對於ELECTRA-base模型來講，在多數任務上超過了BERT-base甚至是RoBERTa-wwm-ext的效果。

其具體使用，能夠查看Github項目：

https://github.com/ymcui/Chin...://bjbsair.com/2020-03-27/tech-info/7050/
在去年11月份，NLP大神Manning聯合谷歌作的ELECTRA一經發布，迅速火爆整個NLP圈，其中ELECTRA-small模型參數量僅爲 BERT-base模型的1/10，性能卻依然能與BERT、RoBERTa等模型相媲美。

在前不久，谷歌終於開源了ELECTRA，併發布了預訓練模型，這對於缺大算力的高校和企業，簡直是一大福音。

然而，其發佈的預訓練模型只是針對英語，卻非如BERT那樣是多語言版本。對於其餘語言（例如中文）的研究者來講，則很是遺憾。

針對這一問題，今天哈工大訊飛聯合實驗室（HFL）基於ELECTRA開源代碼，發佈了中文版的 ELECTRA 預訓練模型。

一、ELECTRA

論文連接：

https://openreview.net/forum?...

論文中這張圖可以說明一切問題：

圖注：右圖是左圖放大的結果。

因此，ELECTRA 與現有的生成式的語言表示學習方法相比，前者具備更高的計算效率和更少的參數（ELECTRA-small的參數量僅爲BERT-base的 1/10）。

ELECTRA可以取得如此優異結果，基於其新穎的預訓練框架，其中包含兩個部分：Generator和Discriminator。

Generator: 一個小的MLM，在[MASK]的位置預測原來的詞。Generator將用來把輸入文本作部分詞的替換。
Discriminator: 判斷輸入句子中的每一個詞是否被替換，即便用Replaced Token Detection (RTD)預訓練任務，取代了BERT原始的Masked Language Model (MLM)。須要注意的是這裏並無使用Next Sentence Prediction (NSP)任務。

在預訓練階段結束以後，只使用Discriminator做爲下游任務精調的基模型。

換句話說，做者們把CV領域的GAN運用到了天然語言處理。

二、中文ELECTRA預訓練模型

而另外一方面，做爲中文社區，咱們國人本身對如何作中文的預訓練則更爲了解，咱們本身來作相應的預訓練可能會比谷歌官方來作會更好。

開源地址：https://github.com/ymcui/Chin...

在谷歌開源ELECTRA以後，崔一鳴等人再次推出中文版 ELECTRA。

ELECTRA-base:12層，隱層768，12個注意力頭，學習率2e-4，batch256，最大長度512，訓練1M步
ELECTRA-small:12層，隱層256，4個注意力頭，學習率5e-4，batch1024，最大長度512，訓練1M步

ELECTRA-small 僅 46 M。

在效果上，崔一鳴等人將之與他們以前作的系列中文版預訓練模型進行了效果對比。

對比模型包括：ELECTRA-small/base、BERT-base、BERT-wwm、BERT-wwm-ext、RoBERTa-wwm-ext、RBT3。

對比任務有六個：

CMRC 2018 (Cui et al., 2019)：篇章片斷抽取型閱讀理解（簡體中文）
DRCD (Shao et al., 2018)：篇章片斷抽取型閱讀理解（繁體中文）
XNLI (Conneau et al., 2018)：天然語言推斷（三分類）
ChnSentiCorp：情感分析（二分類）
LCQMC (Liu et al., 2018)：句對匹配（二分類）
BQ Corpus (Chen et al., 2018)：句對匹配（二分類）

效果以下：

簡體中文閱讀理解：CMRC 2018（評價指標爲：EM / F1）

繁體中文閱讀理解：DRCD（評價指標爲：EM / F1）

天然語言推斷：XNLI（評價指標爲：Accuracy）

情感分析：ChnSentiCorp（評價指標爲：Accuracy）

句對分類：LCQMC（評價指標爲：Accuracy）

句對分類：BQ Corpus（評價指標爲：Accuracy）

其具體使用，能夠查看Github項目：

在前不久，谷歌終於開源了ELECTRA，併發布了預訓練模型，這對於缺大算力的高校和企業，簡直是一大福音。

然而，其發佈的預訓練模型只是針對英語，卻非如BERT那樣是多語言版本。對於其餘語言（例如中文）的研究者來講，則很是遺憾。

針對這一問題，今天哈工大訊飛聯合實驗室（HFL）基於ELECTRA開源代碼，發佈了中文版的 ELECTRA 預訓練模型。

一、ELECTRA

論文連接：

https://openreview.net/forum?...

論文中這張圖可以說明一切問題：

圖注：右圖是左圖放大的結果。

因此，ELECTRA 與現有的生成式的語言表示學習方法相比，前者具備更高的計算效率和更少的參數（ELECTRA-small的參數量僅爲BERT-base的 1/10）。

ELECTRA可以取得如此優異結果，基於其新穎的預訓練框架，其中包含兩個部分：Generator和Discriminator。

Generator: 一個小的MLM，在[MASK]的位置預測原來的詞。Generator將用來把輸入文本作部分詞的替換。
Discriminator: 判斷輸入句子中的每一個詞是否被替換，即便用Replaced Token Detection (RTD)預訓練任務，取代了BERT原始的Masked Language Model (MLM)。須要注意的是這裏並無使用Next Sentence Prediction (NSP)任務。

在預訓練階段結束以後，只使用Discriminator做爲下游任務精調的基模型。

換句話說，做者們把CV領域的GAN運用到了天然語言處理。

二、中文ELECTRA預訓練模型

而另外一方面，做爲中文社區，咱們國人本身對如何作中文的預訓練則更爲了解，咱們本身來作相應的預訓練可能會比谷歌官方來作會更好。

開源地址：https://github.com/ymcui/Chin...

在谷歌開源ELECTRA以後，崔一鳴等人再次推出中文版 ELECTRA。