NLP預訓練模型-百度ERNIE2.0的效果到底有多好【附用戶點評】

ERNIE是百度自研的持續學習語義理解框架,該框架支持增量引入詞彙(lexical)、語法 (syntactic) 、語義(semantic)等3個層次的自定義預訓練任務,可以全面捕捉訓練語料中的詞法、語法、語義等潛在信息。html

ERNIE2.0實現了在中英文16個任務上的最優效果,具體效果見下方列表。git

1、ERNIE2.0中文效果驗證

咱們在 9 個任務上驗證 ERNIE 2.0 中文模型的效果。這些任務包括:天然語言推斷任務 XNLI;閱讀理解任務 DRCD、DuReader、CMRC2018;命名實體識別任務 MSRA-NER (SIGHAN2006);情感分析任務 ChnSentiCorp;語義類似度任務 BQ Corpus、LCQMC;問答任務 NLPCC2016-DBQA 。github

一、天然語言推斷任務

天然語言推斷.png

• XNLIweb

XNLI 是由 Facebook 和紐約大學的研究者聯合構建的天然語言推斷數據集,包括 15 種語言的數據。咱們用其中的中文數據來評估模型的語言理解能力。(https://github.com/facebookre...算法

二、閱讀理解任務

閱讀理解任務.png
*實驗所用的 DuReader 抽取類、單文檔子集爲內部數據集。框架

*實驗時將 DRCD 繁體數據轉換成簡體,繁簡轉換工具:(https://github.com/skydark/ns...工具

*ERNIE 1.0 的預訓練數據長度爲 128,其餘模型使用 512 長度的數據訓練,這致使 ERNIE 1.0 BASE 在長文本任務上性能較差, 爲此咱們發佈了 ERNIE 1.0 Base (max-len-512) 模型 (2019-07-29)性能

• DuReader學習

DuReader 是百度在天然語言處理國際頂會 ACL 2018 發佈的機器閱讀理解數據集,全部的問題、原文都來源於百度搜索引擎數據和百度知道問答社區,答案是由人工整理的。實驗是在 DuReader 的單文檔、抽取類的子集上進行的,訓練集包含15763個文檔和問題,驗證集包含1628個文檔和問題,目標是從篇章中抽取出連續片斷做爲答案。(https://arxiv.org/pdf/1711.05...測試

• CMRC2018

CMRC2018 是中文信息學會舉辦的評測,評測的任務是抽取類閱讀理解。(https://github.com/ymcui/cmrc...

• DRCD

DRCD 是臺達研究院發佈的繁體中文閱讀理解數據集,目標是從篇章中抽取出連續片斷做爲答案。咱們在實驗時先將其轉換成簡體中文。(https://github.com/DRCKnowled...

三、命名實體識別任務

命名實體識別.png

• MSRA-NER (SIGHAN2006)

MSRA-NER (SIGHAN2006) 數據集由微軟亞研院發佈,其目標是識別文本中具備特定意義的實體,包括人名、地名、機構名。

四、情感分析任務

情感分析.png

• ChnSentiCorp

ChnSentiCorp 是一箇中文情感分析數據集,包含酒店、筆記本電腦和書籍的網購評論。

五、問答任務

問答任務.png

• NLPCC2016-DBQA

NLPCC2016-DBQA 是由國際天然語言處理和中文計算會議 NLPCC 於 2016 年舉辦的評測任務,其目標是從候選中找到合適的文檔做爲問題的答案。(http://tcci.ccf.org.cn/confer...

六、語義類似度

語義類似度.png
*LCQMC 、BQ Corpus 數據集須要向做者申請,LCQMC 申請地址:http://icrc.hitsz.edu.cn/info... BQ Corpus 申請地址:http://icrc.hitsz.edu.cn/Arti...

• LCQMC

LCQMC 是在天然語言處理國際頂會 COLING 2018 發佈的語義匹配數據集,其目標是判斷兩個問題的語義是否相同。(http://aclweb.org/anthology/C...

• BQ Corpus

BQ Corpus 是在天然語言處理國際頂會 EMNLP 2018 發佈的語義匹配數據集,該數據集針對銀行領域,其目標是判斷兩個問題的語義是否相同。(https://www.aclweb.org/anthol...

2、英文效果驗證

ERNIE 2.0 的英文效果驗證在 GLUE 上進行。GLUE 評測的官方地址爲 (https://gluebenchmark.com/) ,該評測涵蓋了不一樣類型任務的 10 個數據集,其中包含 11 個測試集,涉及到 Accuracy, F1-score, Spearman Corr,. Pearson Corr,. Matthew Corr., 5 類指標。GLUE 排行榜使用每一個數據集的平均分做爲整體得分,並以此爲依據將不一樣算法進行排名。

一、GLUE - 驗證集結果

GLUE驗證集.png

咱們使用單模型的驗證集結果,來與 BERT/XLNet 進行比較。

二、GLUE - 測試集結果

GLUE 測試集.png
因爲 XLNet 暫未公佈 GLUE 測試集上的單模型結果,因此咱們只與 BERT 進行單模型比較。上表爲ERNIE 2.0 單模型在 GLUE 測試集的表現結果。

3、真實用戶點評

「評分表數據很炸裂啊」
「我以爲大家這個模型太棒了,既能學習到實體embedding,又能學到Word embedding」
「ERNIE2.0創新地將過去單一的預訓練流程拆解爲串行的多個預訓練任務,無疑是最大的貢獻」
「ERNIE2.0的使用很方便」
「經過預訓練模型BERT, ERNIE, BERT-wwm在公開數據集的對比,發現ERNIE表現較好,緣由是採用了非正式數據進行預訓練」
「ERNIE2.0創新性的運用了連續增量式多任務學習」

你們用了都說好,感受來試用吧。

劃重點!
查看ERNIE模型使用的完整內容和教程,請點擊下方連接,建議Star收藏到我的主頁,方便後續查看。
GitHub:(https://github.com/PaddlePadd...
star.png
版本迭代、最新進展都會在GitHub第一時間發佈,歡迎持續關注!

也邀請你們加入ERNIE官方技術交流QQ羣:760439550,可在羣內交流技術問題,會有ERNIE的研發同窗爲你們及時答疑解惑。
二維碼.png

相關文章
相關標籤/搜索