知識圖譜文獻綜述(第四章 實體關係學習)

1. 任務定義、目標和研究意義算法

  關係定義爲兩個或多個實體之間的某種聯繫,實體關係學習就是自動從文本 中檢測和識別出實體之間具備的某種語義關係,也稱爲關係抽取。關係抽取的輸 出一般是一個三元組(實體 1,關係,實體 2)。例如,句子「北京是中國的首都、 政治中心和文化中心」中表述的關係能夠表示爲(中國,首都,北京),(中國, 政治中心,北京)和(中國,文化中心,北京)。網絡

  關係抽取是知識圖譜構建和信息抽取中的一個關鍵環節,具備重要的理論意 義和廣闊的應用前景,爲多種應用提供重要的支持,主要表如今:框架

  (1)大規模知識圖譜的自動構建。不少互聯網應用都須要知識圖譜的支撐, 這個知識圖譜不只包含 WordNet、HowNet 等常識知識圖譜中的通用語義知識, 並且包含百科全書、領域知識圖譜中的領域語義知識。若是能把多源異構知識集 成爲一個大的知識圖譜,將可能提升不少互聯網應用系統的性能,並開創語義網 時代的不少應用。現有的知識圖譜如 WordNet、HowNet 和 CYC 等大多數依靠專 家人工編撰。隨着互聯網的發展,知識呈爆炸式增加,人工構建知識圖譜特別是 構建領域知識圖譜時遇到了很大困難,不只費時費力,並且存在知識覆蓋率低、 數據稀疏和更新緩慢等問題。利用關係抽取技術,知識圖譜能夠根據結構化的抽 取結果自動生成。典型的例子有:Freebase、Yago 和 BDpedia。機器學習

  (2)爲其它信息獲取技術提供支持。函數

 

    1. 對信息檢索提供支持:能夠對複雜 的查詢進行關聯搜索和推理,提供智能檢索結果。例如,對於「身高 170 以上的 中國射手座明星」,有了關係抽取技術的支持,經過知識圖譜構建,就能夠經過推理的方法得到結果。圖 1 展現了百度搜索引擎對「身高 170 以上的中國射手座 明星」查詢返回的結果,這個結果的背後就受到大規模知識圖譜的支撐。
    2. 對 問答系統提供支持:在問答中,關鍵步驟是建設一個領域無關的問答類型體系並 找出與問答類型體系中每一個問答類型相對應的答案模式,這就須要關係抽取技術 的支持。

  (3) 天然語言理解。目前深層的語言理解系統在正確率和性能方面還難以令 人滿意,關係抽取是篇章理解的關鍵技術,運用語言處理技術能夠對文本的核心 內容進行理解,所以語義關係抽取的研究將成爲從簡單的天然語言處理技術到真 正的天然語言理解應用之間的一個重要紐帶,能改進天然語言處理領域的不少任 務的性能,如實體連接和機器翻譯等。工具

 2. 研究內容和挑戰

  關係抽取系統處理各類非結構化/半結構化的文本輸入(如新聞網頁、商品 頁面、微博、論壇頁面等),使用多種技術(如規則方法、統計方法、知識挖掘 方法),識別和發現各類預約義類別和開放類別的關係。根據關係類別是否預約 義,目前關係抽取的核心研究內容能夠劃分爲限定域關係抽取和開放域關係抽取。 如下分別介紹具體的研究內容。 性能

  限定域關係抽取。限定域關係抽取是指系統所抽取的關係類別是預先定義好 的,好比知識圖譜中定義好的關係類別。在限定域關係抽取中關係的類別通常是 人工定義或者從現有知識圖譜中自動獲取。因爲關係類別已經預先定義,因此一 般能夠人工或者基於啓發式地規則自動構建標註語料。所以限定域關係抽取中的 主要研究內容是如何利用有監督或弱監督的方法抽取預約義的實體關係知識。在 有監督的方法中主要的研究內容集中在如何挖掘更多能表徵相應語義關係的特 徵上。在弱監督的方法中主要的研究內容集中在如何下降自動生成語料中的噪聲。 學習

  開放域關係抽取。開放域關係抽取不預先定義抽取的關係類別,由系統自動 從文本中發現並抽取關係。所以開放域關係抽取也稱爲開放式關係發現。因爲沒 有事先定義關係的類別,所以開放域關係發現中利用關係指示詞表明關係的類型。 主要的研究內容是如何利用無監督的方法自動的抽取關係三元組。 測試

  關係抽取目前主要面臨以下三個挑戰: 搜索引擎

  • 天然語言表達的多樣性:關係抽取的核心是將天然語言表達的關係知識映射到關係三元組上。然而, 天然語言表達具備多樣性和隱含性,致使關係抽取任務極具挑戰性。天然語言表 達的多樣性指的是同一種關係能夠有多種表達方式,例如「總部位置」這個語義關 系能夠用「X 的總部位於 Y」,「X 總部坐落於 Y」,「做爲 X 的總部所在地,Y…」 等等不一樣的文本表達方式。天然語言表達的多樣性是關係抽取的一大挑戰。
  •  關係表達的隱含性:關係表達的隱含性是指關係有時候在文本中找不到任何明確的標識,關係隱 含在文本中。例如:蒂姆·庫克與中國移動董事長奚國華會面商談「合做事宜」, 透露出了他將帶領蘋果公司進一步開拓中國市場的訊號。 在這一段文本中,並 沒有直接給出蒂姆·庫克和蘋果公司的關係,可是從「帶領蘋果公司」的表達, 咱們能夠推斷出蒂姆·庫克是蘋果公司的首席執行官(CEO)。關係表達的隱含性 是關係抽取的一大挑戰。
  • 實體關係的複雜性:關係抽取的目標是抽取實體之間的語義關係,然而,真實世界中同一對實體 之間可能有多個關係,並且有的關係能夠同時存在,而有的關係是具備時間特性 的。好比:中國和北京的關係有多個,北京坐落於中國,北京是中國的首都,北 京是中國的政治中心,北京是中國的文化中心。這些關係是能夠同時存在的。但 是若是兩我的原本是夫妻關係,後來離婚了,他們就不是夫妻關係了,是前妻或 者前夫的關係,這個類關係具備時空性,不能單獨存在,實體關係的複雜性是關 系抽取的又一挑戰。

3.2 基於規則的關係抽取和基於機器學習的關係抽取

3.2.1 基於規則的關係抽取

  所謂基於規則的關係抽取方法是指首先由通曉語言學知識的專家根據抽取 任務的要求設計出一些包含詞彙、句法和語義特徵的手工規則(或稱爲模式), 而後在文本分析的過程當中尋找與這些模式相匹配的實例,從而推導出實體之間的 語義關係。如 [Fukumoto et al.,1998]依據兩個實體之間相關聯的特定謂詞來判斷 它們之間的關係,不過其召回率過低,致使在 MUC-7 測試中 F 指數只有 39.1%。 [Humphreys et al.,1998] 在篇章解釋器(Discourse Interpreter)中利用一系列句法 和語義規則識別出實體間的關係,其輸入序列來源於增長了語義和指代等信息的 句法分析器。雖然它們的結構較爲複雜,但在 MUC-7 的模板任務中 F 指數也分 別隻有 23.7 和 54.7。 [Aone et al.,1998] [Aone et al.,2000] 則充分利用語義關係的 局部性特色,在名詞短語標註的過程當中識別出短語的中心詞和它的修飾詞之間可能存在的關係,在 MUC-7 的模板關係任務中取得了 75.6 的最高 F 指數。 基於手工規則的方法須要領域專家構築大規模的知識庫,這不但須要有專業 技能的專家,也須要付出大量勞動,所以這種方法的代價很大。知識庫構建完成 後,對於特定的領域的抽取具備較好的準確率,但移植到其餘領域十分困難,效 果每每較差。所以這種方法在可移植性方面存在着明顯的不足。

3.2.2 基於機器學習的關係抽取

  按照機器學習方法對語料庫的不一樣需求大體可分紅三大類:無監督關係抽取, 有監督關係抽取、弱監督關係抽取。無監督關係抽取但願把表示相同關係的模版 聚合起來,不須要人工標註的數據。有監督關係抽取使用人工標註的訓練語料進 行訓練。有監督關係抽取目前能夠取得最好的抽取效果,可是因爲其須要費時費 力的人工標註,所以難以擴展到大規模的場景下。所以有學者提出了利用知識庫 回標文原本自動得到大量的弱監督數據。目前弱監督關係抽取是關係抽取領域的 一大熱點

 3.2.2.1 無監督關係抽取

  無監督關係抽取方法主要基於分佈假設(Distributional Hypothesis[Harris et al.,1954]理論分佈假設的核心思想是:若是兩個詞的用法類似及出如今相同上 下文中,那麼這兩個詞就意思相近。相應的,在實體關係抽取中,若是兩個實體 對具備類似的語境,那麼這兩個實體對傾向於具備相同的語義關係,基於此理論, 無監督關係抽取將兩個實體的上下文做爲表徵語義關係的特徵。

  基於分佈假設理論,首先由 [Hasegawa et al.,2004]提出了一種基於無監督學 習的實體關係發現方法,該方法將大量文本中同一實體對的全部上下文收集起來, 並把這些上下文做爲表示語義關係的特徵,而後採用層次聚類的方法將特徵類似 度較高的實體對彙集在一塊兒,最後從一個聚類中挑選出頻率最高的詞做爲該類關 系的名稱。

  [Chen et al.,2005] 對 Hasegawa 的方法進行了改進,他們的方法將每 個實體對的上下文,而不是全部相同實體對的上下文,做爲實體之間的語義關係 特徵。在聚類時,先採用基於熵的方法對詞彙特徵進行排序,以提升特徵集的空 間搜索效率。最後使用 Discriminative Category Matching(DCM)理論[Fung et al.,2002]來衡量特徵在某個聚類中的重要性。無監督關係抽取的核心是選取表示實體之間關係的特徵,而後再聚類。上文 介紹的方法主要選取上下文特徵,與之不一樣的是,

  [Bollegala et al.,2010]利用關係 的對偶性(Relation Duality),提出實體對空間和模板空間能夠相互表示,基於這 個理論,使用協同聚類來發現實體對及其關係模板的聚類簇,從每一個聚類的簇裏 面選擇表明性的模板看成此簇對應的關係。另外,無監督關係抽取面臨着關係聚 類簇中的多義問題,即同一個模板可能表達不一樣的關係,針對此問題,

  [Yao et al.,2012]使用主題模型(Topic Model)將實體對及其對應的關係模板分配到不一樣 34 的語義類別上,而後再使用聚類的方法將這些語義類別映射到語義關係。 無監督關係抽取方法能夠發現新的關係,但其發現的新的關係每每是類似模 板的聚類,其缺點是獲得的關係不具語義信息,難以規則化,很難被用來構建知 識庫,若是須要獲得語義關係,須要經過將其同現有知識庫的關係進行對齊,或 者經過人工的方式來給每一個聚類關係簇賦予語義信息。

3.2.2.2 有監督關係抽取

  在使用有監督的方法解決關係抽取問題時,通常將關係抽取看做是一個多分 類問題,提取特徵向量後再使用有監督的分類器進行關係抽取,有監督的方法性 能較好[Zhou et al.,2005] [Mooney et al.,2006] [Bunescu et al.,2005] ,目前佔據主 導地位,研究人員在這方面作了大量的工做。有監督關係抽取能夠分爲:基於特 徵向量的方法、基於核函數的方法和基於神經網絡的方法。

  基於特徵向量的方法特色是須要顯式地將關係實例轉換成分類器能夠接受 的特徵向量,其研究重點在於怎樣提取具備區分性的特徵,經過獲取各類有效的 詞彙、句法和語義等特徵,而後有效地集成起來,從而產生描述關係實例的各類 局部和全局特徵。

  • 文獻[Kambhatla et al.,2004]中的方法綜合考慮實體自己、實體 類型、依存樹和解析樹等特徵,而後使用最大熵分類器判斷實體間的關係。[Zhao et al.,2005]進一步將這些特徵按照實體屬性、二元屬性、依存路徑等類別進行劃 分。
  • [Zhou et al.,2005]系統地研究瞭如何把包括基本詞組塊(Chunk)在內的各類 特徵組合起來,探討了各類語言特徵對關係抽取性能的貢獻,特別研究了 WordNet 和 Name List 等語義信息的影響。
  • [Wang et al.,2006]又進一步加入了從句 子的簡化準邏輯形式(SQLF,Simplified Quasi Logical Form)導出的謂詞語義屬 性,該屬性定義了鏈接兩個實體之間路徑上的謂詞序列,而且使用了多達 94 種 語言特徵。
  • [Jiang et al.,2007]經過統一的特徵空間表達形式來研究不一樣特徵對關 系抽取性能的影響,其中特徵空間可劃分爲序列、句法樹和依存樹等特徵子空間。 實驗結果代表,從三個子空間中提取出的基本單元特徵能取得較好的性能,而再 加入複雜的特徵所帶來的性能提高很小,只有當不一樣子空間和不一樣複雜度的特徵 結合起來時,才能取得最好的性能。基於特徵向量的方法儘管速度很快,也比較 有效,但其缺點是在轉換結構化特徵時須要顯式地給出一個特徵集合,因爲實體 間語義關係表達的複雜性和可變性,要進一步提升關係抽取的性能已經很困難了, 由於很難再找出適合語義關係抽取的新的有效的詞彙、句法或語義特徵。 不一樣於特徵向量的方法,基於核函數的方法不須要構造固有的特徵向量空間, 能很好地彌補基於特徵向量方法的不足。在關係抽取中,基於核函數的方法直接 以結構樹爲處理對象,在計算關係之間的距離的時候再也不使用特徵向量的內積而 是用核函數,核函數能夠在高維的特徵空間中隱式地計算對象之間的距離,不用 枚舉全部的特徵也能夠計算向量的點積,表示實體關係很靈活,能夠方便地利用多種不一樣的特徵,使用支持核函數的分類器進行關係抽取。

  基於核函數的關係抽取最先由

  [Zelenko et al.,2003],他們在文本的淺層句法樹的基礎上定義了樹核函 數,並設計了一個計算樹核函數類似度的動態規劃算法,而後經過支持向量機 (SVM)和表決感知器(Voted Perceptron)等

  [Grishman et al.,2005]分類算法來抽 取實體間語義關係。

  [Culotta et al.,2004]提出基於依存樹核函數的關係抽取,他們 使用一些依存規則將包含實體對的句法分析樹轉換成依存樹,並在樹節點上依次 增長詞性、實體類型、詞組塊、WordNet 上位詞等特徵,最後使用 SVM 分類器 進行關係抽取。

  Mooney 和 Bunescu[Bunescu et al.,2005]進一步使用最短依存樹核 函數,該核函數計算在依存樹中兩個實體之間的最短路徑上的相同節點的數目, 要求對於具備相同關係的實體對,其對應的最短依存樹具備相同的高度且達到根 節點的路徑相同。爲解決最短依存樹核函數召回率較低的問題,

  Bunescu 和 Mooney[Mooney et al.,2006]又提出基於字符串序列核函數的關係抽取,首先提取 出兩個實體之間和先後必定數量的單詞組成字符串並把其做爲關係實例的表達 形式,規定子序列中容許包含間隔項,進而實現關係抽取。

  [Zhou et al.,2007]提出 最短路徑包含樹核,將語義關係實例表示爲上下文相關的最短路徑包含樹,能根 據句法結構動態擴充與上下文相關的謂詞部分,並採用上下文相關的核函數計算 方法,即在比較子樹類似度時也考慮根結點的祖先結點,將該核函數同基於特徵 的方法結合起來,充分考慮結構化信息和平面特徵的互補性。然而該類方法依賴 傳統的句法分析等複雜的天然語言處理工具,不少語言沒有此類工具,即便有的 語言有此類工具可是也會形成偏差傳遞,影響最終的性能。

  近年來,深度學習的方法在有監督關係抽取任務中佔據了主導地位。[Zeng et al.,2014] 首先將卷積神經網絡應用在了有監督關係抽取任務中。他們主要是應 用了詞向量將句子表示成了矩陣,再利用卷積神經網絡和 maxpooling 獲得句子 的向量表示。最後用 softmax 分類器對該向量進行分類,獲得句子的關係類別。 同時期還有 [Thien et al.,2015] [Santos et al.,2015] 等工做也是採用了類似的方法。 還有 [Socher et al.,2012] 利用了長短時記憶網絡(LSTM)和句子的依存句法路 徑來建模句子的表示,最後再用 softmax 分類器進行分類。爲了更好的建模句子, [Zhou et al.,2016] 提出使用雙向長短時記憶網絡和關注機制。目前大部分學者關 注於如何更好的用深度學習模型建模句子。此類方法通常默認句子中已經標記出 了候選實體,可是實際任務中,須要系統自動發現實體。並且此類方法須要大量 的人工標註的語料做爲訓練數據才能取得較好的性能。

 3.2.2.3 弱監督關係抽取

  有監督關係抽取須要大量的標註樣本,而人工標註數據費時費力、一致性差, 尤爲是面向海量異構的網絡數據時,問題就更加明顯,爲此,研究人員提出弱監督關係抽取。

  弱監督關係抽取主要有兩種框架:

  • 一種是使用半監督學習和主動學習等技術以儘量少的代價提高抽取效果,如[Sun et al.,2011]經過大規模的詞聚類做爲額外的特徵,以解決實體之間特徵過於泛化的問題,從而幫助關係抽取; [Sun et al.,2012]利用主動學習的技術,經過少許的標註數據來發現分類面附近的 未標註數據,對這些數據進行人工標註,從而以更少的標註代價得到更好的抽取 效果。
  • 一種框架是使用回標的思想,利用現有知識庫中的關係三元組,自動 回標三元組中實體所在的文本做爲訓練數據,因爲其訓練數據產生過程不須要人 工標註,因此這種方法代價很低,更加適合大規模多領域的網絡文本,它在信息 抽取領域近年來獲得較普遍的應用。

  弱監督回標思想最先由[Craven et al.,1999]提出,主要研究怎樣在文本中抽取結構化數據創建生物學知識庫(Biological Knowledge Bases),他們利用 Yeast Protein Database 自動產生標註數據,而後訓練樸素貝葉斯分類器抽取結構化數據。

  緊接着,[Mintz et al.,2009]使用利用 Freebase 做爲知識庫,將其中的關係實例所包含的實體同維基百科文本中的實體對齊,以此產生訓練數據,而後使用邏輯斯諦迴歸進行關係抽取。弱監督回標主要基於如下假設:若是兩個實體在知識庫中具備必定的關係,那麼根據同時包含這兩個實體的句子,就都能推斷出實體 對在知識庫中具備的關係。因爲語言表達的多樣性,弱監督的這種假設每每太過 強烈,兩個實體出如今同一個句子中並不能表示它們就必定具備某種語義關係, 有可能這兩個實體只是屬於同一個話題而已[Riedel et al.,2010]。所以,雖然弱監 督方法克服了有監督方法須要人工標註數據的不足,但也帶來了新問題——回標 噪聲問題。研究人員提出了一系列模型和方法來克服回標噪聲問題,Riedel 等將 弱監督關係抽取看做是一個多示例問題,他們的假設中,只須要在回標出來的所 有句子中,有一個句子能表示兩個實體間的關係。將全部回標的句子看做一個包, 其中的每個句子就是包中的一個示例,從而解決回標噪聲的問題。

  [Hoffmann et al.,2011] 更進一步,在多實例模型中考慮實體對間可能不止有一種關係,取得 了更好的效果。

  [Surdeanu et al.,2012] 不但對噪聲訓練數據進行建模,並對實體 對可能屬於多個關係類型這個問題進行建模,他們提出了基於機率圖模型的多實例多標籤模型,在以 Freebase 爲知識庫和紐約時報做爲回標語料的數據上進行 實驗,結果代表其模型提高了原始方法的抽取效果。

  [Takamatsu et al.,2012] 發 現多示例模型的「至少一句表達真實關係」'的假設有可能失敗,其經過抽樣統計 顯示,Freebase 知識庫中 91.7%的實體對在英文維基百科文章中只能回標到一個 句子,此時多示例模型的假設不能成立,他們的工做經過產生式圖模型來預測可 能具備噪聲的特徵模板,而後過濾包含這些模板的正樣本,利用剩下的樣本訓練 抽取模型。利用 Freebase 做爲知識庫,在 NYU 語料上進行回標,針對 15 類關係選取置信度最高的 50 個結果進行人工評測,平均準確率爲 89%。

  上述方法都是基於傳統特徵的,然而傳統特徵的設計耗時費力,擴展性差。

  近些年,基於神經網絡的方法佔據主導地位。[Zeng et al.,2015] 首先提出了用卷 積神經網絡來建模句子,並依據 「至少一個假設」 ,將整個學習過程視爲多示 例學習。利用 Freebase 做爲知識庫,在 NYU 語料上進行回標,針對 55 類關係 選取置信度最高的 100 個結果進行人工評測,平均準確率爲 86%。 [Ji et al.,2017] [Lin et al.,2016] 認爲 [Zeng et al.,2015] 的方法只可以利用包中的一個句子,提 出了使用關注機制,自動學得包中每一個句子的權重,而後將句子的表示按照權重 加權表示爲包的表示,最後對包進行分類,獲得包的關係。其中 [Ji et al.,2017] 還使用了外部文本信息。 [Jiang et al.,2016] 提出了不一樣於 「至少一個」 假設, 他們認爲不少狀況下,要判斷一個包的關係要同時使用多個句子的信息,所以提 出了 Cross-sentence maxpooling 的方法。除此以外,最近有 [Luo et al.,2011] 提 出使用動態矩陣來建模噪聲,以此來加強弱監督關係抽取。 [Lin et al.,2017] 還 關注了跨語言的弱監督關係抽取。 目前,基於機器學習的關係抽取方法佔據了主導地位。然而,無監督的關係 抽取獲得的知識缺少語義信息、很難歸一化;有監督關係抽取中須要大量人工標 注的高質量數據做爲訓練語料,人工標註耗時費力成本高,因此很難大規模推廣; 弱監督關係抽取雖然能夠自動生成大規模訓練語料,可是自動生成訓練語料的過 程中須要大規模的已有知識圖譜做爲種子,並且生成的語料中會有噪音數據。

4. 技術展望與發展趨勢

  從 20 世紀 90 年代以來,關係抽取技術研究蓬勃發展,已經成爲了天然語言 處理和知識圖譜等領域的重要分支。這一方面得益於系列國際權威評測和會議的 推進,如消息理解系列會議(MUC,Message Understanding Conference),自動內容抽取評測(ACE,Automatic Content Extraction)和文本分析會議系列評測(TAC, Text Analysis Conference)。另外一方面也是由於關係抽取技術的重要性和實用性, 使其同時獲得了研究界和工業界的普遍關注。關係抽取技術自身的發展也大幅度 推動了中文信息處理研究的發展,迫使研究人員面向實際應用需求,開始重視之 前未被發現的研究難點和重點。縱觀關係抽取研究發展的態勢和技術現狀,咱們 認爲關係抽取的發展方向以下:

  面向開放域的可語義化的關係抽取技術 目前,絕大部分的關係抽取研究集中預約義的關係抽取上,並致力於構建更 精準的有監督抽取模型和方法,使用標註語料訓練模型參數。然而,在構建真實 環境下的關係抽取系統時,這些有監督方法每每存在以下不足:

1)更換語料類 型以後,現有模型每每會有一個大幅度的性能降低;

2)沒法抽取目標關係類別 以外的實體關係知識;

3)性能依賴於大規模的訓練語料;

4)現有監督模型每每 依賴於高複雜度的天然語言處理應用,如句法分析。

  目前已經有不少機構和學者進行開放域的關係抽取的研究,可是目前的方法抽取的關係很難語義化,同一個實體對的同一關係會抽取出不一樣的表達,另外不 同的數據來源其質量和可信度不一樣,如何整合不一樣數據源抽取的關係知識,並將 同一關係的知識進行消歧進而語義化是一個迫切須要解決的問題。

  篇章級的關係抽取

  現有大多數的關係抽取集中在從包含兩個指定實體的一個或者多個句子中 抽取關係,不多有工做將抽取範圍擴大到篇章級別。然而,真實環境下,如產品 說明書等,一篇文章會描述多個實體的多個屬性或者關係,並且文本中存在大量 的零指代的語言現象,所以必須利用篇章級的信息進行關係和屬性值的抽取。

  具備時空特性的多元關係抽取 目前,絕大部分的關係抽取研究集中在二元關係抽取上,即抽取目標爲三元 組(實體 1,關係,實體 2),然而二元關係很難表達實體關係的時間特性和空間 特性,並且不少關係是多元的,例如:NBA 球星勒布朗詹姆斯效力過的球隊。 這就是一個多元關係,首先他效力過的球隊有多支,其次效力於每支球隊的時間 也不一樣,這就是關係的時空性和多元性。具備時空特性的多元關係能建模和表達 更豐富的關係知識,是將來研究的一個方向。 最後,縱觀近 30 餘年來關係抽取的現狀和發展趨勢,咱們有理由相信,隨 着海量數據資源(如 Web)、大規模深度機器學習技術(如深度學習)和大規模 知識資源(如知識圖譜)的蓬勃發展,關係抽取這一極具挑戰性同時也極具實用 性的問題將會獲得至關程度的解決。同時,隨着低成本、高適應性、高可擴展性、 可處理開放域的關係抽取研究的推動,關係抽取技術的實用化和產業化將在現有 的良好基礎之上取得進一步的長足發展。

相關文章
相關標籤/搜索