近年來隨着大數據、深度學習等技術的快速發展,加之與天然語言處理技術密切結合,語言智能得到了持續的發展和突破,並愈來愈多地應用於各個行業。百度在天然語言處理技術方面,已有了十幾年的技術累積和前瞻探索,而且不斷將核心技術高效落地產業實踐。git
爲了適應全面豐富的 NLP 任務,方便更多開發者靈活插拔嘗試多種網絡結構,而且讓應用最快速達到工業級效果。github
今年4月23日,百度正式開放了工業級中文 NLP 工具與預訓練模型集——網絡
PaddleNLP(nlp.baidu.com/homepage/nlptools)app
PaddleNLP 將天然語言處理領域的多種模型用一套共享骨架代碼實現,可大大減小開發者在開發過程當中的重複工做。工具集擁有當前業內效果最好的中⽂語義表示模型和基於用戶大數據訓練的應用任務模型,模型源於產業實踐,達到工業級的應用效果。框架
PaddleNLP 徹底基 PaddlePaddle (www.paddlepaddle.org)開發。PaddlePaddle 是中國首個、也是目前國內惟一開源開放,集核心框架、工具組件和服務平臺爲一體的端到端開源深度學習平臺,其囊括支持面向真實場景應用、達到工業級應用效果的模型,並具有針對大規模數據場景的分佈式訓練能力、支持多種異構硬件的高速推理引擎。分佈式
PaddleNLP 提供依託於百度百億級大數據的預訓練模型,可以極大地方便 NLP 研究者和工程師快速應用。使用者能夠用 PaddleNLP 快速實現文本分類、文本匹配、序列標註、閱讀理解、智能對話等 NLP 任務的組網、建模和部署,並且能夠直接使用百度開源工業級預訓練模型進行快速應用。用戶在極大地減小研究和開發成本的同時,也能夠得到更好的基於工業實踐的應用效果。工具
紮根產業實踐,PaddleNLP 爲了更好知足開發者需求
百度在十幾年來一直紮根 NLP 技術的產業應用,經過在百度搜索、信息流、百科、貼吧、文庫等內部場景的技術積累,加之對外的技術開放與應用,造成了一整套服務於產業實踐的 NLP 技術方案。學習
除了保持技術先進,百度也不斷關注開發者對 NLP 工具的具體需求,但願打造一個全面、易用、高效的開源 NLP 工具集,讓 NLP 技術有更普遍的落地應用場景。大數據
一個面向完整場景的 NLP 應用系統一般須要對衆多 NLP 基礎任務進行系統化集成方可完成搭建。與此同時,NLP 任務一般須要針對應用場景作適應性遷移,須要其具有充分的組網方案自由度且可高效率重訓。更重要的是,NLP 任務須要經過大量細節調優以知足苛刻的應用需求,非工業級模型難以積累。而百度開源的 PaddleNLP 工具集偏偏是針對這些需求進行開發,可以覆蓋豐富的 NLP 任務,具有靈活的應用適應性,並擁有優異的應用效果。優化
全面、靈活、高效,打造強大的 PaddleNLP
全面:涵蓋應用任務和基礎網絡,提供豐富任務類型
PaddleNLP 基於十幾年的技術積累,提供了全面豐富的中文處理任務,涵蓋了文本分類、文本匹配、序列標註、語言表示等多種任務方向,可根據業務需求或實驗需求快速選擇相應的任務進行使用。
靈活:任務與網絡解耦,網絡靈活可插拔
PaddleNLP 工具集將任務與網絡解耦,區分出應用任務層和基礎網絡層,同類型任務的不一樣網絡能夠實現靈活插拔和快速替換,方便開發者快速針對應用場景作適應性遷移。
高效:強大的工業化預訓練模型,打造優異應用效果
擁有當前業內效果最好的中⽂語義表示模型和基於用戶大數據訓練的應⽤用任務模型,模型效果調整機制源於產業實踐,模型應用效果更突出。
百度提供了大量工業化預訓練模型,包括語義表示基礎模型和基於任務的預訓練模型。2019年3月,百度提出知識加強的語義表示模型 ERNIE(Enhanced Representation through kNowledge IntEgration),在包括語言推斷、語義類似度、命名實體識別、情感分析、問答匹配等天然語言處理各種任務上,均超越了語義表示模型 BERT 的效果。
ERNIE 基於海量百科、新聞、貼吧多源數據進行學習。而且相較於 BERT 學習原始語言信號,ERNIE 直接對先驗語義知識單元進行建模,加強了模型語義表示能力。同時,ERINE 建模 Query-Response 對話結構,將對話 Pair 對做爲輸入,進一步提高模型語義表示能力。
除 ERNIE 以外,百度也開源了針對文本情感分類、對話情緒識別、語義匹配、詞法分析、閱讀理解等任務場景基於百度海量工業化數據的預訓練模型,方便 NLP 工程師針對具體任務進行開發。
與此同時,百度還開放了在對話等任務的開放數據集上超越 SOTA 效果的模型網絡結構與參數,方便相關領域研究人員快速驗證、使用。配合 PaddleHub,用戶能夠輕鬆進行下載並更新不一樣版本的預訓練模型,方便效果遷移與模型調優。
除了開放預訓練模型,PaddleNLP 還開放了相關任務的評測數據集。這些數據來自於百度真實的工業化場景,可以很好地對模型效果進行評估。
展望
PaddleNLP 工具集將依託 Paddle 和百度 NLP 強大的技術保障, 支持更加普遍的任務場景。在不斷打磨技術應用效果,優化開發者使用體驗的同時,更多、更先進的預訓練模型也將會持續不斷地發佈,歡迎您持續關注。
歡迎您瞭解更多百度 NLP 開源工具集能力
百度 NLP 開源工具集主頁地址:
nlp.baidu.com/homepage/nlptools
百度 NLP 開源工具集 GitHub 地址:
github.com/PaddlePaddle/models/tree/develop/PaddleNLP
百度天然語言處理(Natural Language Processing,NLP)以「理解語言,擁有智能,改變世界」爲使命,研發天然語言處理核心技術,打造領先的技術平臺和創新產品,服務全球用戶,讓複雜的世界更簡單。
本文分享 CSDN - 飛槳PaddlePaddle。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。