Beyond 預訓練語言模型,NLP還須要什麼樣的知識?

本文分享自百度開發者中心Beyond 預訓練語言模型,NLP還須要什麼樣的知識?html

近年來,深度學習技術已普遍應用於NLP領域,但實際應用效果每每受限於缺少大規模高質量監督樣本。2018年末,預訓練語言模型橫空出世,極大緩解了這個問題,經過「超大規模無監督語料上的預訓練語言模型+相對少許的監督樣本進行任務精調(fine-tuning)」,能夠大幅提高各種NLP任務的效果。機器學習

因爲效果顯著和應用機制簡單,預訓練語言模型之前所未有的速度在業界獲得普遍應用,各大廠紛紛發佈本身的預訓練模型。如今,咱們已絕不懷疑預訓練語言模型的能力,並堅信它的發展必將持續提高各種NLP任務的效果。可是,對其能力的上限仍有疑問:預訓練語言模型能帶領咱們完全理解語言嗎?工具

預訓練語言模型的不足

2020年,GPT-3發佈,再一次引起你們對「通用人工智能」的熱情。在一開始被GPT-3的效果驚豔以後,GPT-3的不足也暴露出來:雖然GPT-3能自動從海量的無監督語料中學習到豐富的共現知識,併成功應用於下游任務上,但GPT-3並未真正理解語言,它只是成功地記住和擬合了語料。學習

圖片.jpg

如上圖GPT-3關於眼睛的問答例子所示,若是一個事實沒有出如今語料中,預訓練語言模型只能經過已經記住的語料分佈去泛化,這會致使出現不可控的答案。由於,大量的事實知識是不能泛化的,即便個體是類似的,它們各自的屬性值也不能隨意互換。舉個例子,若是一個模型的訓練語料是童話故事,那麼它從故事中學到的事實知識(如,太陽是個老爺爺)是沒法用於現實世界的。大數據

這天然引出了一個問題,模型沒有見過的事實,經過知識去補足它,沒法泛化的事實,經過知識去約束它,是否可行呢?這就是知識圖譜在嘗試解決的問題。優化

用知識彌補模型的不足

知識圖譜經過將客觀世界中實體、概念及其事實性描述以結構化的方式顯示錶述出來,提供了一種更好地組織、管理、理解和使用知識的能力,並在搜索推薦、智能問答、大數據分析與決策等領域獲得了成功應用。人工智能

不一樣領域的知識圖譜有不一樣的知識表示範圍和問題解決目標,例如:醫療圖譜主要描述疾病、症狀、藥物、診斷相關知識,可用於輔助問診、輔助診斷、治療方案推薦等場景;商品知識圖譜主要描述商品屬性、特徵、關聯關係等,可用於導購、客服、營銷等場景。url

那麼,除了這些具體的領域事實知識和領域應用以外,還有哪些通用知識是模型欠缺的,能幫助模型像人同樣理解語言?spa

實際上,人對事實知識的記憶能力是遠遜於模型的(模型能夠輕易記住上億的精準事實知識,而人作不到),但人的語言理解能力卻遠遠超過任何模型。每一個人的知識背景都不盡相同,但不一樣年齡、不一樣國家、不一樣專業的人,互相之間能夠交流。一本架空小說,描述的事實和咱們生活的真實世界徹底不一樣,但讀者卻能夠無障礙地理解。.net

咱們天然會認爲,必定存在一個通用且相對穩定的知識體系,可以讓不一樣的人互相交流,可以讓人讀懂從未見過的文章,可以讓一我的給另外一我的講解清楚新出現的名詞。可是,這樣的通用知識體系是什麼樣的?如何表徵和構建?如何應用到NLP模型和任務中?遺憾的是,在人工智能領域,雖然從幾十年前已開始研究這些問題,但目前仍無共識性的答案,依然是你們共同努力探索的方向。

百度發佈「解語」開源工具集,就是嘗試從中文詞彙理解和句子理解的角度,對這些問題進行初步探索:構建一個通用且相對穩定的中文詞彙知識體系,將文本與詞彙知識體系相關聯,讓模型對中文句子的理解能力更接近於人。

解語:關聯中文文本與詞彙知識

爲了可以區分通用知識和領域知識,咱們選擇這樣的切入點:當一我的看到一個句子,若是事先不知道句子涉及的事實知識,怎麼理解這個句子?

顯然,人對句子的理解至少包括如下三層:

  1. 理解句子裏都有哪些詞;
  2. 理解這些詞大概的意義,即使有不認識的詞,也能大概猜出這個詞指的是一我的、一件事、仍是一種疾病;
  3. 理解這些詞之間的關係,並與腦海裏已有的知識關聯。

基於這樣的考慮,咱們構建了「解語」,主要包括兩部分:

  • 百科知識樹(TermTree):是一個描述全部中文詞彙(包括概念、實體/專名、領域術語、語法詞等,統一稱之爲Term)的樹狀知識庫。
  • 中文詞類知識標註工具(WordTag):是首個可以覆蓋全部中文詞彙的詞類知識標註工具,結合百科知識樹可實現定製化詞類序列標註。

解語主頁:
https://www.paddlepaddle.org.cn/textToKnowledge

百科知識樹(TermTree)

百科知識樹由兩部分構成:

  • TermType詞類體系:覆蓋全部中文詞彙詞類的樹狀知識體系,是對中文詞聚集合的一種全劃分層次表示;
  • Term關係和屬性值:描述具體Term之間關係和Term屬性值網狀圖譜,用於整合各應用知識圖譜;

圖片.jpg

本次開源的百科知識樹V1.0試用版中,包含了簡化版的TermType體系,以及約100萬數量的term集合。

下載連接:

https://kg-concept.bj.bcebos.com/TermTree/TermTree.V1.0.tar.gz

與其餘常見應用知識圖譜不一樣,百科知識樹的核心是概念詞,而非專名實體詞。由於在中文文本中,概念詞的含義是相對穩定的,而專名實體詞隨應用變化(例如,不一樣電商有不一樣的商品實體集,不一樣的小說站有不一樣的小說實體集),所以,百科知識樹經過 「提供經常使用概念集 + 可插拔的應用實體集/應用知識圖譜」 來達到支持不一樣的應用適配。

百科知識樹的主要特色:

1.採用樹狀結構(Tree),而不是網狀結構(Net/Graph)

  • 樹結構是對知識空間的全劃分,網狀結構是對相關關係的描述和提煉。樹結構可以更加方便作到對詞類體系的全面描述,也能夠方便地與網狀結構結合使用;
  • 樹結構適合概念層次的泛化推理,網狀結構適合相關性的泛化推理。樹結構的知識對統計相關知識有很好的互補做用,在應用中可以更好地彌補統計模型的不足。

2.覆蓋全部中文詞彙詞類,通過大規模產業應用實踐

  • 百科知識樹的詞類體系是在大規模產業應用實踐(如百科文本解析挖掘、query理解)中打磨出來的中文詞類體系,在理論上可能不是一個完備體系,但很適合通用領域中文解析挖掘任務。

中文詞類知識標註工具(WordTag)

WordTag是首個可以覆蓋全部中文詞彙的詞類知識標註工具,旨在爲中文文本解析提供全面、豐富的知識標註結果,能夠應用於模板(挖掘模板、解析模板)生成與匹配、知識挖掘(新詞發現、關係挖掘)等天然語言處理任務中,提高文本解析與挖掘精度;也能夠做爲中文文本特徵生成器,爲各種機器學習模型提供文本特徵。

使用WordTag工具能夠方便爲中文句子標註上詞類序列知識。以下圖所示,在PaddleNLP工具包中只須要三句代碼,就能夠獲得給定中文句子的詞類序列標註結果:
圖片.jpg

Wordtag與中文分詞、詞性標註、命名實體識別等工具的區別以下圖所示:

圖片.jpg

因爲中文是孤立語,沒有詞的形態變化,句法結構弱,主要依賴「詞+詞序」表達語義。經過WordTag詞類知識標註產出完整的Term邊界以及上位詞類序列,可以爲文本提供更加豐富的詞彙知識特徵,比通常分詞粒度穩定,比詞性特徵區分度高,比命名實體識別覆蓋面廣,不管是直接用於挖掘,仍是做爲知識特徵加入到DNN模型中,都是更全面的知識補充。

WordTag的理想目標是在詞類序列標註這一維度上逼近人對句子的理解能力,也就是說,當句子中出現未知詞彙時,可以經過句子中其餘的詞及詞類知識劃分它的邊界並分辨出它大機率是什麼詞類。當前WordTag的效果距離這個目標還有至關大的距離,但經過不斷基於百科知識樹擴充和優化訓練樣本,WordTag會持續優化,逐步逼近這個目標。

不一樣場景下的文本解析可能有各自的特殊需求,結合百科知識樹,WordTag可實現定製化詞類序列標註。

解語的應用場景示例

應用場景1:分詞、命名實體識別、專名挖掘

有別於其餘的分詞工具,WordTag的切分目標是儘量將Term的完整邊界切分出來,使之更加適用於下游的挖掘任務,在實際應用中,也能夠結合其餘基礎粒度的中文分詞結果共同使用。

同時,WordTag的標註詞類覆蓋了中文全部詞彙,其結果能夠直接做爲命名實體識別的候選結果使用,也能夠結合百科知識樹進行更細粒度的詞類篩選,或直接用於專名挖掘。

例如上文的例子:

WordTag結果:李偉\人物類實體 拿出\場景事件 具備\確定詞 科學性\信息資料 、\w 可操做性\信息資料 的\助詞 《\w 陝西省高校管理體制改革實施方案\做品類實體 》\w

可直接做爲分詞結果,也可經過做品類實體標籤、人物類實體標籤獲得實體候選,還能夠結合百科知識樹進行其餘詞類的挖掘和過濾。

應用場景2:文本挖掘模板/解析模板生成與匹配

在知識挖掘、query解析、語義一致性斷定等應用中,文本挖掘/解析模板是最經常使用的規則模型。WordTag包含了覆蓋中文全部詞彙的詞類標註體系,在生成模板以及模板匹配上有着自然的優點。用戶能夠根據WordTag標註的樣本詞類序列,自動生成或配置更加豐富、精準的挖掘/解析模板,而後對目標文本使用WordTag標註,便可利用模板進行匹配,從而大大下降人工配置模板的代價,顯著提高生產效率。

例如,輸入文本「美人魚是周星馳執導的電影」,可將抽取出的詞類直接構形成爲挖掘匹配模板:

[做品類實體][確定詞|是][人物類實體][場景事件|執導][做品類_概念|電影]

利用該模板以及結合百科知識樹進行概念擴展,能夠匹配出全部該句式的文本,例如:

《狂人日記》是魯迅創做的第一個短篇白話日記體小說
《千王之王2000》是一部王晶於1999年執導的喜劇電影
《射鵰英雄傳》是金庸創做的長篇武俠小說

WordTag的標註結果中,區分了「人物類實體」和「人物類概念」,以及「做品類實體」和「做品類概念」,使得模板生成更爲精準。同時,百科知識樹中也區分了命名實體詞(eb: entity base)與非實體詞(cb: concept base),這樣,能夠利用百科知識樹分別進行實體擴展(e.g., 周星馳->王晶)和概念擴展(e.g., 電影->小說),生成更加豐富多樣的模板,支持更細化的應用場景。

此外,模板也可用於文本分類和文本挖掘的樣本優化:使用WordTag產出樣本模板,再利用百科知識樹進行泛化約束,篩選出高置信度的樣本,或者過濾不合格的樣本。

應用場景3:詞類知識加強的DNN模型

不少研究在嘗試將知識引入模型,以得到更好的應用效果。例如,[2]提出在關係抽取模型中增長實體類型的信息,以達到更優的知識抽取效果。

開發者們能夠利用WordTag生成詞類特徵,與知識加強的挖掘模型結合,應用於本身的中文挖掘任務;研究者們也能夠利用WordTag與百科知識樹提供的豐富的詞類特徵,探索更好的知識加強的中文挖掘模型。

除下游任務外,也能夠將詞類知識應用於預訓練中,例如使用詞類知識控制預訓練語言模型的掩碼過程,讓預訓練語言模型具有更強的通用知識。

總結與展望

讓NLP模型對語言的理解能力逼近人類,是全部NLPer的努力目標。一方面,咱們但願模型能自動學得語料中隱含的知識,另外一方面,咱們也但願將人類積累的通用知識經過更高效的方式融入到模型中,彌補語料的分佈缺陷。

「解語」是從中文詞彙理解和句子理解的角度嘗試構建詞彙層次上的通用知識,並將其應用到中文文本知識標註中。目前的知識體系及標註效果還在持續優化中,這次做爲開源數據和工具發佈,也但願能和你們共同探索通用知識的表徵與應用方案,打造更具備知識理解能力的NLP模型。

相關文章
相關標籤/搜索