知識圖譜文獻綜述(第二章 知識表示學習)

第二章 知識表示學習

1. 任務定義、目標和研究意義

  知識表示是知識獲取與應用的基礎,所以知識表示學習問題,是貫穿知識庫 的構建與應用全過程的關鍵問題。人們一般以網絡的形式組織知識庫中的知識, 網絡中每一個節點表明實體(人名、地名、機構名、概念等),而每條連邊則表明 實體間的關係。然而,基於網絡形式的知識表示面臨諸多挑戰性難題,主要包括 以下兩個方面:算法

  (1)計算效率問題。基於網絡的知識表示形式中,每一個實體均用不一樣的節 點表示。當利用知識庫計算實體間的語義或推理關係時,每每須要人們設計專門 的圖算法來實現,存在可移植性差的問題。更重要的,基於圖的算法計算複雜度 高,可擴展性差,當知識庫規模達到必定規模時,就很難較好地知足實時計算的 需求。網絡

  (2)數據稀疏問題。與其餘類型的大規模數據相似,大規模知識庫也遵照 長尾分佈,在長尾部分的實體和關係上,面臨嚴重的數據稀疏問題。例如,對於 長尾部分的罕見實體,因爲只有極少的知識或路徑涉及它們,對這些實體的語義 或推理關係的計算每每準確率極低。dom

  近年來,以深度學習[Bengio, et al., 2009]爲表明的表示學習[Bengio, et al., 2013]技術異軍突起,在語音識別、圖像分析和天然語言處理領域得到普遍關注。 表示學習旨在將研究對象的語義信息表示爲稠密低維實值向量。在該低維向量空 間中,兩個對象距離越近,則說明其語義類似度越高。 知識表示學習,則是面向知識庫中的實體和關係進行表示學習。知識表示學 習實現了對實體和關係的分佈式表示,它具備如下主要優勢:分佈式

(1)顯著提高計算效率。知識庫的三元組表示實際就是基於獨熱表示的。 如前所分析的,在這種表示方式下,須要設計專門的圖算法計算實體間的語義和 推理關係,計算複雜度高,可擴展性差。而表示學習獲得的分佈式表示,則可以 高效地實現語義類似度計算等操做,顯著提高計算效率。函數

(2)有效緩解數據稀疏。因爲表示學習將對象投影到統一的低維空間中, 使每一個對象均對應一個稠密向量,從而有效緩解數據稀疏問題,這主要體如今兩 個方面。一方面,每一個對象的向量均爲稠密有值的,所以能夠度量任意對象之間 的語義類似程度。另外一方面,將大量對象投影到統一空間的過程,可以將高頻對 象的語義信息用於幫助低頻對象的語義表示,提升低頻對象的語義表示的精確性。性能

(3)實現異質信息融合。不一樣來源的異質信息須要融合爲總體,才能獲得 有效應用。例如,人們構造了大量知識庫,這些知識庫的構建規範和信息來源均有不一樣,例如著名的世界知識庫有 DBPedia、YAGO、Freebase 等。大量實體和 關係在不一樣知識庫中的名稱不一樣。如何實現多知識庫的有機融合,對知識庫應用 具備重要意義。經過設計合理的表示學習模型,將不一樣來源的對象投影到同一個 語義空間中,就可以創建統一的表示空間,實現多知識庫的信息融合。此外,當 咱們在信息檢索或天然語言處理中應用知識庫時,每每須要計算查詢詞、句子、 文檔和知識庫實體之間的複雜語義關聯。因爲這些對象的異質性,在往常是棘手 問題。而知識表示學習亦能爲此提供統一表示空間,垂手可得實現異質對象之間 的語義關聯計算。學習

  綜上,因爲知識表示學習可以顯著提高計算效率,有效緩解數據稀疏,實現 異質信息融合,所以對於知識庫的構建、推理和應用具備重要意義,值得廣受關 注、深刻研究。優化

2. 研究內容和關鍵科學問題

  知識表示學習是面向知識庫中實體和關係的表示學習。經過將實體或關係投 影到低維向量空間,咱們可以實現對實體和關係的語義信息的表示,能夠高效地 計算實體、關係及其之間的複雜語義關聯。這對知識庫的構建、推理與應用均有 重要意義。目前,已經在知識圖譜補全、關係抽取等任務中取得了矚目成果。但 是,知識表示學習仍然面臨不少挑戰。人工智能

  2.1 複雜關係建模

  現有知識表示學習方法沒法有效地處理知識圖譜中的複雜關係。這裏的複雜 關係定義以下。按照知識庫中關係兩端鏈接實體的數目,能夠將關係劃分爲 1-一、 1-N、N-1 和 N-N 四種類型。例如 N-1 類型關係指的是,該類型關係中的一個尾 實體會平均對應多個頭實體,即咱們將 1-N、N-1 和 N-N 稱爲複雜關係。研究發 現,各類知識獲取算法在處理四種類型關係時的性能差別較大,在處理複雜關係 時性能顯著下降。如何實現表示學習對複雜關係的建模成爲知識表示學習的一個 難點。spa

   2.2 多源信息融合

  知識表示學習面臨的另一個重要挑戰如何實現多源信息融合。現有的知識 表示學習模型僅利用知識圖譜的三元組結構信息進行表示學習,尚有大量與知識 有關的其餘信息沒有獲得有效利用,例如: (1)知識庫中的其餘信息,如實體和關係的描述信息、類別信息等; (2)知識庫外的海量信息,如互聯網文本蘊含了大量與知識庫實體和關係 有關的信息。 如何充分融合這些多源異質信息,實現知識表示學習,具備重要意義,可改善數據稀疏問題,提升知識表示的區分能力。

  2.3 關係路徑建模

  在知識圖譜中,多步的關係路徑也可以反映實體之間的語義關係。Lao 等人 曾提出 Path-Constraint Random Walk[Lao, et al., 2010]、Path Ranking Algorithm[Lao, et al., 2010]等算法,利用兩實體間的關係路徑信息,預測它們的關係,取得顯著 效果,說明關係路徑蘊含着豐富的信息。如何突破知識表示學習孤立學習每一個三 元組的侷限性,充分考慮關係路徑信息是知識表示學習的關鍵問題。

3. 技術方法和研究現狀

  知識表示學習是近年來的研究熱點,研究者提出了多種模型,學習知識庫中 的實體和關係的表示。本節將主要介紹其中的表明方法。

  結構表示[Bordes, et al. 2011](Structured Embedding,SE)是較早的幾個知 識表示方法之一。對於一個事實三元組,SE 將頭實體向量和尾實體向量經過關係的兩個矩陣投影到關係的對應空間中,而後在該空間中計算兩投影向量的距離。 這個距離反映了兩個實體在該關係下的語義相關度,它們的距離越小,說明這兩 個實體存在這種關係。然而,SE 模型有一個重要缺陷:它對頭、尾實體使用兩 個不一樣的矩陣進行投影,協同性較差,每每沒法精確刻畫兩實體與關係之間的語 義聯繫

  所以,單層神經網絡模型[Socher, et al. 2013](Single Layer Model, SLM) 嘗試採用單層神經網絡的非線性操做,來減輕 SE 沒法協同精確刻畫實體與關係 的語義聯繫的問題。雖然 SLM 是 SE 模型的改進版本,可是它的非線性操做僅 提供了實體和關係之間比較微弱的聯繫。與此同時,卻引入了更加高的計算複雜度。

  此外,語義匹配能量模型[Bordes, et al., 2012; Bordes, et al., 2014](Semantic Matching Energy,SME)提出更復雜的操做,尋找實體和關係之間的語義聯繫。 在 SME 中,每一個實體和關係都用低維向量表示。在此基礎上,SME 定義若干投 影矩陣,利用雙線性函數來刻畫實體與關係的內在聯繫。

  一樣利用雙線性函數的 還有隱變量模型[Sutskever, et al., 2009; Jenatton, et al., 2012(] Latent Factor Model, LFM),該模型提出利用基於關係的雙線性變換,刻畫實體和關係之間的二階聯 系。與以往模型相比,LFM 取得巨大突破:經過簡單有效的方法刻畫了實體和 關係的語義聯繫,協同性較好,計算複雜度低。

  後來的 DISTMULT 模型[Yang, et al., 2015]還探索了 LFM 的簡化形式:將關係矩陣設置爲對角陣。實驗代表,這 種簡化不只極大下降了模型複雜度,模型效果還獲得顯著提高。

  在 LFM 的基礎 上,張量神經網絡模型[Socher, et al. 2013](Neural Tensor Network,NTN)進一 步利用關係的雙線性變換來刻畫實體與關係之間的聯繫,其基本思想是用雙線性 張量取代傳統神經網絡中的線性變換層,在不一樣的維度下將頭、尾實體向量聯繫 起來。因爲 NTN 引入了張量操做,雖然可以更精確地刻畫實體和關係的複雜語義聯繫,可是計算複雜度很是高,須要大量三元組樣例才能獲得成分學習。實驗 代表,NTN 在大規模稀疏知識圖譜上的效果較差。

  此外,矩陣分解一樣是是得 到低維向量表示的重要途徑。所以,也有研究者提出採用矩陣分解進行知識表示 學習。這方面的表明方法是 RESACL模型[Nickel, et al., 2011; Nickel, et al., 2012]。 RESACL 的基本思想與前述 LFM 相似。不一樣之處在於,RESACL 會優化張量中 的全部位置,包括值爲 0 的位置;而 LFM 只會優化知識庫中存在的三元組。

  最近,Bordes 等人受到詞向量空間對於詞彙語義與句法關係存在有趣的平移 不變現象的啓發,提出了 TransE 模型[Bordes, et al., 2013],將知識庫中的關係看 做實體間的某種平移向量。與以往模型相比,TransE 模型參數較少,計算複雜度 低,卻能直接創建實體和關係之間的複雜語義聯繫。Bordes 等人在 WordNet 和 Freebase 等數據集上進行連接預測等評測任務,實驗代表 TransE 的性能較以往 模型有顯著提高。特別是在大規模稀疏知識圖譜上,TransE 的性能尤爲驚人。由 於 TransE 簡單有效,自提出以來,有大量研究工做對 TransE 進行擴展和應用。 能夠說,TransE 已經成爲知識表示學習的表明模型。在 TransE 的基礎上,研究 者提出了衆多改進模型來解決 TransE 中仍沒法處理的問題。

  3.1 複雜關係建模

  TransE 因爲模型簡單,在大規模知識圖譜上效果明顯。可是也因爲過於簡單, 致使 TransE 在處理前面提到的知識庫的複雜關係時捉襟見肘。例如,假如知識 庫中有兩個三元組,分別是(美國, 總統, 奧巴馬)和(美國, 總統, 布什)。這裏的 關係「總統」是典型的 1-N 的複雜關係。若是用 TransE 從這兩個三元組學習知識 表示,將會使奧巴馬和布什的向量變得相同。

  爲了解決 TransE 模型在處理 1-N、N-一、N-N 複雜關係時的侷限性,TransH 模型[Wang, et al., 2014]提出讓一個實體在不一樣的關係下擁有不一樣的表示

  TransR 模型[Lin, et al., 2015]進一步認爲不一樣的關係擁有不一樣的語義空間。對每一個三元 組,首先應將實體利用矩陣投影到對應的關係空間中,而後再創建從頭實體到尾 實體的翻譯關係。

  針對在知識庫中實體的異質性和不平衡性,還有 TransR 模型 中矩陣參數過多的問題,TransD 模型[Ji, et al., 2015]和 TranSparse 模型[18]對 TransR 模型中的投影矩陣進行了進一步的優化

  此外,TransG 模型[Xiao, et al., 2015]和 KG2E 模型[He, et al. 2015]提出了利用高斯分佈來表示知識庫中的實體 和關係,能夠在表示過程當中考慮實體和關係自己語義上的不肯定性

  能夠看到, 在TransE以後,在如何處理複雜關係建模的挑戰問題上,提出了TransH、TransR、 TransD、TranSparse、TransG 和 KG2E 等多種模型,從不一樣角度嘗試解決複雜關 系建模問題,可謂百花齊放。在相關數據集合上的實驗代表,這些方法均較 TransE 有顯著的性能提高,驗證了這些方法的有效性。

  3.2 多源信息融合

  知識表示學習面臨的另一個重要挑戰如何實現多源信息融合。現有的知識 表示學習模型如 TransE 等,僅利用知識圖譜的三元組結構信息進行表示學習, 尚有大量與知識有關的其餘信息沒有獲得有效利用。如何充分融合這些多源異質 信息,實現知識表示學習,具備重要意義,能夠改善數據稀疏問題,提升知識表 示的區分能力。 在融合上述信息進行知識表示學習方面,已經有一些研究工做,但整體來說 還處於起步狀態,這裏簡單介紹其中幾個表明性工做。

  考慮實體描述的知識表示學習模型(Description- Embodied Knowledge Representation Learning,DKRL)[Xie, et al., 2016]。DKRL 模型提出在知識表示學習中考慮 Freebase 等知識庫中提供的 實體描述文本信息。在文本表示方面,DKRL 考慮了兩種模型:

  1. CBOW, 將文本中的詞向量簡單相加做爲文本表示;
  2. 卷積神經網絡,可以考慮文本 中的詞序信息。

  DKRL 的優點在於,除了可以提高實體表示的區分能力外,還能 實現對新實體的表示。當新出現一個不曾在知識庫中的實體時,DKRL 能夠根據 它的簡短描述產生它的實體表示,用於知識圖譜補全等任務。這對於不斷擴充知 識圖譜具備重要意義。 此外,Wang 等人提出在表示學習中考慮文本數據,利用 word2vec 學習維基 百科正文中的詞表示,利用 TransE 學習知識庫中的知識表示。而後利用維基百 科正文中的連接信息(錨文本與實體的對應關係),讓文本中實體對應的詞表示 與知識庫中的實體表示儘量接近,從而實現文本與知識庫融合的表示學習。 Zhong 等人還將相似的想法用於融合實體描述信息[Zhong, et al., 2015]。 已有工做代表,多源信息融合可以有效提高知識表示的性能,特別是能夠有 效處理新實體的表示問題。可是,也能夠看出,多源信息融合的知識表示學習仍 處於很是起步的階段,相關工做較少,考慮的信息源很是有限,有大量的信息(如 音頻、圖片、視頻等)未被考慮,具備廣闊的研究前景。

  3.3 關係路徑建模

  在知識圖譜中,多步的關係路徑也可以反映實體之間的語義關係。爲了突破 TransE 等模型孤立學習每一個三元組的侷限性,Lin 等人提出考慮關係路徑的表示 學習方法,以 TransE 做爲擴展基礎,提出 Path-based TransE(PTransE)模型[Lin, et al., 2015]。幾乎同時,也有其餘研究團隊在知識表示學習中成功考慮了關係路 徑的建模[Alberto, et al., 2015]。關係路徑的表示學習也被用來進行基於知識庫的 自動問答[Gu, et al., 2015]。 PTransE 等研究的實驗代表,考慮關係路徑可以極大提高知識表示學習的區分性,提升在知識圖譜補全等任務上的性能。關係路徑建模工做還比較初步,在關係路徑的可靠性計算,關係路徑的語義組合操做等方面,還有不少細緻的考察 工做須要完成。

  4. 技術展望與發展趨勢

  近年來知識表示學習已經嶄露頭角,在不少任務上展示了巨大的應用潛力。 對於 TransE 等模型面臨的挑戰,也已經提出了不少改進方案。然而,知識表示 學習距離真正實用還很遠,本節將對知識表示學習的將來方向進行展望。

  面向不一樣知識類型的知識表示學習 已有工做將知識庫的關係劃分爲 1-一、1-N、N-1 和 N-N 四類,這種關係類 型劃分略顯粗糙,沒法直觀地解釋知識的本質類型特色。近期發表在 Science 等 權威期刊的認知科學研究成果[Kemp, et al., 2009; Tenenbaum, et al., 2011] 總結認 爲,人類知識包括如下幾種結構:

(1)樹狀關係,表示實體間的層次分類關係;

(2)二維網格關係,表示現實世界的空間信息;

(3)單維順序關係,表示實體 間的偏序關係;

(4)有向網絡關係,表示實體間的關聯或因果關係。

  認知科學對 人類知識類型的總結,有助於對知識圖譜中知識類型的劃分和處理。將來有必要 結合人工智能和認知科學的最新研究成果,有針對性地設計知識類型劃分標準, 開展面向不一樣複雜關係類型的知識表示學習研究。

  多源信息融合的知識表示學習

  在多源信息融合的知識表示學習方面,相關工做還比較有限,主要是考慮實 體描述的知識表示學習模型,以及文本與知識庫融合的知識表示學習,這些模型 不管是信息來源,仍是融合手段都很是有限。咱們認爲在多源信息融合的知識表 示學習方面,咱們還能夠對下列方面進行探索:

  (1)融合知識庫中實體和關係的 其餘信息,知識庫中擁有關於實體和關係的豐富信息,如描述文本、層次類型等。 有機融合這些信息,將顯著提高知識表示學習的表示能力;

  (2)融合互聯網文本、 圖像、音頻、視頻信息,互聯網海量文本、音頻、視頻數據是知識庫的重要知識 來源,有效地利用這些信息進行知識表示能夠極大地提高現有知識表示方法的表 示能力;

  (3)融合多知識庫信息,人們利用不一樣的信息源構建了不一樣的知識庫。 如何對多知識庫信息進行融合表示,對於創建統一的大規模知識庫意義重大。

  考慮複雜推理模式的知識表示學習  

  考慮關係路徑的知識表示學習,其實是充分利用了兩實體間的關係和關係 路徑之間的推理模式,來爲表示學習模型提供更精確的約束信息。例如,根據三 元組(康熙,父親,雍正)和(雍正,父親,乾隆)構成的「康熙」和「乾隆」之間 「父親+父親」的關係路徑,再結合三元組(康熙,祖父,乾隆),PTransE 實際上 額外提供了「父親+父親=祖父」的推理模式,從而提高知識表示的精確性。

  實際上,關係路徑只是複雜推理模式中的一種特殊形式,它要求頭實體和尾實體必須保持不變。但實際上,知識庫中還有其餘形式的推理模式,例如三元組 (美國,總統,奧巴馬)和(奧巴馬,是,美國人)之間就存在着推理關係,但 是二者的頭、尾實體並不徹底一致。若是能將這些複雜推理模式考慮到知識表示 學習中,將能更進一步提高知識表示的性能。 在該問題中,如何總結和表示這些複雜推理模式,是關鍵難題。目前來看, 一階邏輯(First-Order Logic,FOL)是對複雜推理模式的較佳表示方案,將來我 們須要探索一階邏輯的分佈式表示,及其融合到知識表示學習中的技術方案。

  面向大規模知識庫的在線學習和快速學習 大規模知識庫稀疏性很強。初步實驗代表,已有表示學習模型在大規模知識 庫上性能堪憂,特別是對低頻實體和關係的表示效果較差。並且知識庫規模不斷 擴大,咱們須要設計高效的在線學習方案。除了充分融合多源信息下降稀疏性之 外,咱們還能夠探索如何優化表示學習的方式,借鑑課程學習和遷移學習等算法 思想,進一步改善知識表示的效果。

  基於知識分佈式表示的應用 知識表示學習還處於起步階段,在知識獲取、融合和推理等方向均有廣闊的 應用空間。咱們須要在若干重要任務上探索和驗證知識表示學習的有效性。例如, 關係抽取任務若是可以基於知識表示學習有效利用知識庫信息,將可以極大提高 抽取性能和覆蓋面。再如,咱們能夠充分利用表示學習在信息融合上的優點,實 現跨領域和跨語言的知識庫融合。目前,知識分佈式表示的做用已經在信息抽取、 自動問答、信息檢索、推薦系統中獲得初步驗證,將來還需在更多任務上進行更 加深刻的探索。

相關文章
相關標籤/搜索