知識圖譜文獻綜述(第三章 實體識別與連接)

第三章 實體識別與連接

1. 任務定義、目標和研究意義

  實體是文本中承載信息的重要語言單位,也是知識圖譜的核心單元。算法

  命名實體識別是指識別文本中的命名性實體,並將其劃分到指定類別的任 務[Chinchor & Robinson, 1997]。經常使用實體類別包括人名、地名、機構名、日期等。數據庫

  實體連接主要解決實體名的歧義性和多樣性問題,是指將文本中實體名指向其 所表明的真實世界實體的任務,也一般被稱爲實體消歧。例如,給 一句話「蘋果發佈了最新產品 iPhone X」,實體連接系統須要將文本中的「蘋果」與 其真實世界所指的「蘋果公司」進行對應。 實體識別與連接是海量文本分析的核心技術,爲解決信息過載提供了有效 手段。網絡

2. 研究內容和挑戰問題

  實體分析任務主要面臨如下幾個關鍵科學問題:架構

  1. 實體名的歧義性和多樣性。app

  2. 資源缺少(Low Resource)問題。目前絕大部分的實體分析算法都依賴於有 監督模型,須要大量的訓練語料來達到實用性能。然而,考慮到標註語料的成本, 在絕大部分狀況下都不可能得到足夠的訓練語料來處理不一樣的領域、面向不一樣風 格的文本(規範、非規範)、不一樣的語言(中文、英文、一帶一路小語種等)等 多種多樣的狀況。無需大量訓練語料的無監督/半監督技術,資源自動構建技術, 以及遷移學習等技術是解決上述問題的核心研究問題。工具

  3. 實體的開放性問題。實體具備複雜性和開放性的特色。實體的複雜性指 的是實體的類型多種多樣,同時類型之間具備複雜的層次結構。實體的開放性指 實體並非一個封閉的集合,而是隨着時間增長、演化和失效。實體的開放性和 複雜性給實體分析帶來了巨大的挑戰:開放性使得現有有監督方法沒法適應開放 知識的抽取;實體的巨大規模使得沒法使用枚舉或者人工編寫的方式來進行處理, 同時隨着時間變化現有模型的性能會降低。性能

3. 技術方法和研究現狀

傳統方法:學習

  NER用CRF。大數據

  實體連接採用計算實體說起(mention)和知識庫中實體的相 似度,並基於上述類似度選擇特定實體說起的目標實體。搜索引擎

深度學習方法:

  實體識別。隨着深度學習在不一樣領域的火爆,愈來愈多的深度學習模型被提 出用於解決實體識別問題。目前存在兩類用於命名實體識別的典型深度學習架構, 一種是 NN-CRF 架構[Lample et al, 2016],在該架構中,CNN/LSTM 被用來學習 每個詞位置處的向量表示,基於該向量表示,NN-CRF 解碼該位置處的最佳標 籤。第二種是採用滑動窗口分類的思想,使用神經網絡學習句子中的每個 ngram 的表示,而後預測該 ngram 是不是一個目標實體[Xu et al., 2017]。

  實體連接。實體連接的核心是構建多類型多模態上下文及知識的統一表示, 並建模不一樣信息、不一樣證據之間的相互交互。經過將不一樣類型的信息映射到相同 的特徵空間,並提供高效的端到端訓練算法,深度學習方法給上述任務提供了強 有力的工具。目前的相關工做包括多源異構證據的向量表示學習、以及不一樣證據 之間類似度的學習等工做[Ganea & Hofmann, 2017] [Gupta et al., 2017] [Sil et al., 2018] 。 相比傳通通計方法,深度學習方法的主要優勢是其訓練是一個端到端的過程, 無需人工定義相關的特徵。另一個優勢是深度學習能夠學習任務特定的表示, 創建不一樣模態、不一樣類型、不一樣語言之間信息的關聯,從而取得更好的實體分析 性能。目前,如何在深度學習方法中融入知識指導(如語言學結構約束、知識結 構)、考慮多任務之間的約束、以及如何將深度學習用於解決資源缺少問題(如構 建語言無關的命名實體識別)是當前的工做的熱點。

  文本挖掘方法

  傳通通計方法和深度學習方法都須要大量訓練語料和預先明肯定義的目標 實體類別,沒法處理大數據環境下的開放實體分析任務。除非結構化文本以外, Web 中每每還存在大量的半結構高質量數據源,如維基百科、網頁中的表格、列 表、搜索引擎的查詢日誌等等。這些結構每每蘊含有豐富的語義信息。所以,半 結構 Web 數據源上的語義知識獲取(knowledge harvesting),如大規模知識共享 社區(如百度百科、互動百科、維基百科)上的實體知識抽取,每每採用文本挖 掘 的 方 法 。 代 表 性 文 本 挖 掘 抽 取 系 統 包 括 DBPedia[Auer et al., 2007] 、 Yago[Suchanek & Kasneci, 200八、BabelNet、NELL 和 Kylin 等等。文本挖掘方法 的核心是構建從特定結構(如列表、Infobox)構建實體挖掘的特定規則。因爲規 則自己可能帶有不肯定性和歧義性,同時目標結構可能會有必定的噪音,文本挖 掘方法每每基於特定算法來對語義知識進行評分和過濾。 此外,人們發現結構化數據源只包含有限類別的實體,對長尾類別覆蓋不足, 另外一方面的實體獲取技術每每採用 Bootstrapping 策略,充分利用大數據的冗餘 性,開放式的從 Web 中獲取指定類型的實體。該部分的表明性的工做包括 TextRunner 系統和 Snowball 系統[Agichtein & Gravano, 2000]。

  開放式實體集合 擴展的主要問題是語義漂移問題,近年來的主要工做集中在解決該問題。具體技 術包括互斥 Bootstrapping 技術、Co-Training 技術和 Co-Bootstrapping 技術。文本挖掘方法只從容易獲取且具備明確結構的語料中抽取知識,所以抽取出 來的知識質量每每較高。然而,僅僅依靠結構化數據挖掘沒法覆蓋人類的大部分 語義知識:首先,絕大部分結構化數據源中的知識都是流行度高的知識,對長尾 知識的覆蓋不足;此外,人們發現現有結構化數據源只能覆蓋有限類別的語義知 識,相比人類的知識仍遠遠不夠。

  所以,如何結合文本挖掘方法(面向半結構化 數據,抽取出的知識質量高但覆蓋度低)和文本抽取方法(面向非結構化數據, 抽取出的知識相比文本挖掘方法質量低但覆蓋度高)的優勢,融合來自不一樣數據 源的知識,並將其與現有大規模知識庫集成[Nakashole et al., 2012],是文本挖掘 方法的研究方向之一。

4. 技術展望與發展趨勢

  縱觀實體識別研究發展的態勢和技術現狀,咱們認爲其發展方向以下:

  1. 融合先驗知識的深度學習模型

  近年來,深度學習模型已經在實體識別和連接任務上取得了長足的進展,並 展示了至關的技術潛力和優點。可是目前的深度學習模型的成功仍然依賴於大量 的訓練語料,缺少面向任務特色的針對性設計。 以前的傳通通計模型中已經證實許多先驗知識對於實體識別和連接任務的有效性,如句法結構、語言學知識、任務自己約束、知識庫知識和特徵結構等。 如何在深度學習模型中融合上述先驗知識並進行鍼對性的設計是提高現有深度 模型的有效手段之一。 另外一方面,現有深度模型在進行實體分析時仍然是一個黑箱模型,致使其可 解釋性不強,且難以採用增量的方式構建模型。如何構建可解釋、增量式的深度 學習模型也是將來值得解決的一個問題。

  2. 資源缺少環境下的實體分析技術

  目前,絕大部分實體分析研究集中在構建更精準的模型和方法,這些方法通 常面向預先定義好的實體類別,使用標註語料訓練模型參數。然而,在構建真實 環境下的信息抽取系統時,這些有監督方法每每具備以下不足:

  1)現有監督模 型在更換語料類型以後,每每會有一個大幅度的性能降低;

  2)現有監督模型無 法分析目標類別以外的實體;

  3)現有監督模型依賴於大規模的訓練語料來提高 模型性能。

  爲解決上述問題,如何構建資源缺少環境下的實體分析系統是相關技術實用 化的核心問題。相關研究方向包括:構建遷移學習技術,充分利用已有的訓練語 料;研究自學習技術,在極少人工干預下構建高性能的終生學習信息抽取系統; 研究增量學習技術,自動的重用以前的信息抽取模塊,使得不一樣資源能夠逐步增 強,而不是每次都重頭開始訓練;研究無監督/半監督/知識監督技術,探索現有 有監督學習技術以外的有效手段,解決標註語料瓶頸問題。

  3. 面向開放域的可擴展實體分析技術

  因爲實體分析任務的基礎性,愈來愈多的任務和應用須要實體識別和連接技 術的支撐。這就要求實體分析技術可以處理各類不一樣的情境帶來的挑戰,在開放 環境下取得良好性能。然而,現有實體分析系統每每針對新聞文本,對其它情境 下(如不一樣文本類型微博、評論、列表頁面等,不一樣上下文如多模態上下文、短 文本上下文和數據庫上下文)的研究不足。 所以,實體分析的發展方向之一是構建面向開放域的可擴展實體分析技術。 具體包括:

1)數據規模上的可擴展性:信息抽取系統須要可以高效的處理海量 規模的待抽取數據;

2)數據源類型上的可擴展性:信息抽取系統須要可以在面 對不一樣類型數據源時取得魯棒的性能;

3)領域的可擴展性:信息抽取系統須要 可以方便的從一個領域遷移到另外一個領域;

4)上下文的可擴展性:實體分析系 統須要可以處理不一樣的上下文,並針對不一樣上下文的特定自適應的改進自身。

相關文章
相關標籤/搜索