最強中文NLP預訓練模型艾尼ERNIE官方揭祕【附視頻】

「最近恰好在用ERNIE寫畢業論文」
「感受還挺厲害的」
「爲何叫ERNIE啊,這名字有什麼深意嗎?」
「我想讓艾尼幫我寫做業」

看了上面火熱的討論,你必定很好奇「艾尼」、「ERNIE」究竟是個啥?git

天然語言處理( Natural Language Processing,簡稱NLP )被譽爲人工智能「皇冠上的明珠」。NLP爲各種企業及開發者提供用於文本分析及挖掘的核心工具,已經普遍應用在電商、文化娛樂、金融、物流等行業客戶的多項業務中。github

而艾尼(ERNIE),可謂是目前NLP領域的最強中文預訓練模型。算法

9月5日,百度資深研發工程師龍老師,就經過直播帶開發者走近最強中文NLP預訓練模型ERNIE,在線上解讀了一系列艾尼ERNIE的強大特性,並現場與同爲NLP模型的BERT直接PK,讓開發者連連感嘆,但願能把ERNIE運用到本身的工做與生活之中。框架

錯過了直播不要緊,讓咱們來回顧一下課上都講了什麼~分佈式

什麼是艾尼(ERINE)?

艾尼(ERNIE)是百度自研的持續學習語義理解框架,該框架支持增量引入詞彙(lexical)、語法 (syntactic) 、語義(semantic)等3個層次的自定義預訓練任務,可以全面捕捉訓練語料中的詞法、語法、語義等潛在信息。工具

這些任務經過多任務學習對模型進行訓練更新,每當引入新任務時,該框架可在學習該任務的同時,不遺忘以前學到過的知識。這也意味着,該框架能夠經過持續構建不一樣的預訓練任務,持續提高模型效果。所以ERNIE具備了更好的語義理解能力。學習

ERNIE.gif
ERNIE 2.0持續學習語義理解框架測試

ERNIE好用麼?

好很差用,擺事實才知道。優化

直播環節中,龍老師直接用填空題的形式展現了ERNIE與BERT在填空方面的表現。人工智能

例如題目:中國歷史上惟一的正統女皇帝是?[?],下面是直播中兩種算法的表現:

百度大咖.png

ERNIE的結果是「武則天」,而BERT的結果是「宋太帝」。ERNIE能輸出「武則天」說明它確實能學到「武則天」與「女皇帝」之間的關聯。

而BERT輸出的「宋太帝」雖然每一個字「宋」、「太」、「帝」都與「皇帝」相關,可是連在一塊兒就不是一個完整的詞,並且也不能與「女皇帝」的造成照應。

再如,陳曉的妻子是?[?]

百度大咖2.png

ERNIE用答案向咱們證實了本身不僅懂百科,也懂八卦。

經過上面的DEMO測試,咱們也就引出了這樣一個問題:

ERNIE和BERT最大的區別是什麼?

ERNIE1.0可以充分學習詞語、短語、命名實體識別中字與字之間的關係,將其總體進行掩碼。而BERT不具有這樣的能力。ERNIE2.0則經過持續構造輔助任務讓ERNIE進行學習,會的任務越多能力越強大。

這與BERT只靠一兩個任務進行預訓練的思路是徹底不一樣的。就像小學生作題,一直只練一種題型確定是不行的,須要多種題型都會作,既要有專項突破也要有綜合練習,這樣才能成爲真正的學霸。

隨着多樣的訓練數據的增長,ERNIE經過持續學習就可以學得愈來愈好。

ERNIE做爲模型,也須要與深度學習框架深度配合,才能實現最佳的效果。百度開源的深度學習框架飛槳(PaddlePaddle)對ERNIE模型有很是好的定製優化,使得其加速比達到77%,能夠說是ERNIE背後的神助攻。

ERNIE藉助飛槳PaddlePaddle多機分佈式訓練優點,利用79億tokens訓練數據(約1/4的 XLNet 數據)和64張V100(約1/8的XLNet 硬件算力)訓練的ERNIE 2.0預訓練模型不只實現了在中英文16個任務上的最優效果,並且爲開發人員定製本身的 NLP 模型提供了方案。

目前,百度開源了ERNIE 2.0的Fine-tuning代碼和英文預訓練模型。

本次基於艾尼ERNIE的直播,同步在愛奇藝、IT大咖說、BiliBili、虎牙、鬥魚五個平臺同步直播,收到了近3W開發者的關注與討論。

直播回放視頻已經上線,歡迎你們繼續學習~

回顧ERNIE的原理、優點以及案例,請戳回放視頻:
http://play.itdks.com/watch/8...http://play.itdks.com/watch/8591895

在11月,ERNIE的線下培訓課程也會在上海、成都等地分別落地,歡迎關注「百度NLP」公衆號,關注最新報名信息~

劃重點!
查看ERNIE模型使用的完整內容和教程,請點擊下方連接,建議點擊Star收藏到我的主頁,方便後續查看。
GitHub:https://github.com/PaddlePaddle/ERNIE
star.png

版本迭代、最新進展都會在GitHub第一時間發佈,歡迎持續關注!
也邀請你們加入ERNIE官方技術交流QQ羣:760439550,可在羣內交流技術問題,會有ERNIE的研發同窗爲你們及時答疑解惑。

相關文章
相關標籤/搜索