筆者:整理2016-2017年ACL、EMNLP、SIGIR、IJCAI、AAAI等國際知名會議中實體關係推理與知識圖譜補全的相關論文,供天然語言處理研究人員,尤爲知識圖譜領域的學者參考,若有錯誤理解之處請指出,不勝感激!(如需轉載,請聯繫本人:jtianwen2014,並註明出處)算法
- 做者:Qiao Liu, Liuyi Jiang, Minghao Han, Yao Liu, Zhiguang Qin
- 機構:School of Information and Software Engineering, University of Electronic Science and Technology of China
--------論文掠影--------網絡
本文面向的任務是基於知識圖譜的關係推理。本文經過對比考察PRA方法和TransE方法在關係推理上的執行效果並分析緣由,在PRA基礎上提出層次的隨機遊走算法HiRi進行實體關係推理。架構
本文首先敘述了基於知識圖譜的關係推理的相關工做,大致分爲三種方法:首先是統計關係學習方法(SRL),如馬爾科夫邏輯網絡、貝葉斯網絡,但這類方發須要設計相應的規則,所以沒有很好的擴展性和泛化性;嵌入式表示的方法,旨在將實體和關係映射爲空間中的向量,經過空間中向量的運算來進行推理(如TransE),該方法取得了較好的準確率,但分佈式表示的解釋性不強,另外,較難實現並行計算;基於關係路徑特徵的隨機遊走模型,該方法能夠進行並行計算,具備較好的執行效率,但準確率與召回率相比嵌入式表示學習的方法存在劣勢。本文的想法是:是否能夠設計算法同時實現隨機遊走模型的執行效率以及保留嵌入式表示學習方法的準確率?dom
--------方法介紹--------分佈式
本文對TransE方法(嵌入式表示學習的表明)和PRA方法(隨機遊走模型的表明)進行對比,在一對多、一對1、多對多、多對一這四類關係上進行對比分析:函數
對比發現:在1:M關係上,PRA遠不如TransE;但在M:1關係上,二者很接近。有此現象,本文的第一個假設認爲能夠將知識圖譜看作無向圖,以此來規避1:M關係上的弱勢。學習
另外,PRA方法在M:M關係上也只達到了TrasnE方法效果的一半,本文認爲這說明了PRA在多對多關係上抽取的路徑特徵並無充分地利用多對多關係產生的簇中的鏈接信息(文中有舉例說明這一點)。相比而言,嵌入式學習的方法因爲將知識圖譜全局信息編碼到向量空間裏,因此能夠充分利用到這種信息。編碼
在利用多對多推理關係時,常常會用到關係的反向,即從尾實體到頭實體的方向,這種推離的方法可使用odd-hop隨機遊走模型來建模,基於此本文的第二個假設是:具備拓撲結構的關係明確的簇可能會涵蓋對推理頗有幫助的信息,那麼,基於關係學習算法的隨機遊走能夠加強推理能力。 spa
本文提出了一種層次化推理的架構,共分爲三個部分:全局推理、局部推理、推理結果融合,結構框圖以下:翻譯
全局推理是利用PRA算法進行推理,以獲得三元組成立的機率\(f(h,r_i,t)\);局部推理時在特定關係的子圖(簇)上計算一個3跳的機率矩陣,以獲得存在可能該關係的三元組機率\(g(h,r_i,t)\),因爲是在一個簇上進行的,這是一個局部的推理。融合的過程是利用一個線性模型對兩部分的機率融合,以獲得最終的機率。
筆者:本文經過分析PRA與TransE的在不一樣類型關係上的差距,提出了兩個假設,並在此基礎上提出層次化的推理方法HiRi,即在全局和局部分別進行關係推理,最終融合在一塊兒得到推理結果。本文在第二個假設的提出上沒有給出太多明確的解釋,所舉的例子和該假設的提出在遞進關係上有些牽強,筆者未理清思路。另外,3跳的由來是否來自於「關係-關係反向-關係」路徑,即3跳回到原關係?對於假設一,將關係看作無向的,會帶來哪些不良後果?前人是否有這方面的探討?
- 做者:Han Xiao, Minlie Huang, Xiaoyan Zhu
- 機構:Dept. of Computer Science and Technology, Tsinghua University
--------論文掠影--------
本文提出:目前已有的知識表示學習方法沒法實現精確連接預測,本文認爲有兩個緣由致使了這一現象的出現:ill-posed algebraic problem、adopting an overstrict geometric form。
其中,ill-posed algebraic problem指的是:一個方程組中的方程式個數遠大於變量個數。本文以翻譯模型爲表明敘述這一問題。翻譯的目的是,對知識庫的三元組的嵌入式表示知足\(\boldsymbol {\rm {h_r+r=t_r}}\),若是三元組的數量爲\(T\),嵌入式表示的維度爲\(d\),那麼一共有\(T*d\)個方程式,而所須要學習的變量一共有\((E+R)*d\),其中\(E,R\)表示實體和關係類型的數量。因爲三元組的數量遠大於實體和關係類型的數量,那麼這種翻譯模型存在嚴重的ill-posed algebraic problem問題。
對於一個ill-posed algebraic系統,所求得的解常常是不精確且不穩定的,這也正是以往方法沒法進行精確連接預測的緣由之一。爲此,本文提出一個基於流形(manifold)的原則,用\(\mathcal{M}(\boldsymbol {\rm {h,r,t}})=D_r^2\)用來代替\(\boldsymbol {\rm {h_r+r=t_r}}\),其中\(\mathcal{M}\)是流形函數。
另外,對於TransE的方法,對於給定的頭實體和關係,應用於\(\boldsymbol {\rm {h+r=t}}\),所獲得的尾實體幾乎是一個點,這對於多對多關係而言顯然是不正確的,這是一種overstrict geometric form。前人的一些方法如TransH、TransR將實體和關係映射到一些與關係相關的子空間中來緩解這一問題,然而,這種問題在子空間中仍然存在。這種過於嚴苛的形式或致使引入大量的噪聲元素,在連接預測的過程當中沒法準確預測。
以下圖所示,越靠近圓心組成正確三元組的可能性越大,藍色爲正確的答案,紅色爲噪聲,其中TransE的方法沒法很好地區分,而本文提出的ManifoldE能夠很好的區分噪聲數據。
--------方法介紹--------
本文提出用\(\mathcal{M}(\boldsymbol {\rm {h,r,t}})=D_r^2\)用來代替\(\boldsymbol {\rm {h_r+r=t_r}}\),其中\(\mathcal{M}\)是流形函數。打分函數定義爲:
\[f_r(h,t)=||\mathcal{M}(h,r,t)-D_r^2||^2\]
對於\(\mathcal{M}\)的定義,其中一種以球體爲流形。即對於給定頭實體和關係類型,尾實體在向量空間中分佈在以\(\boldsymbol {\rm {h+r}}\)爲球心的球面上,此時:
\[\mathcal{M}(h,r,t)=||\boldsymbol {\rm {h+r-t}}||_2^2\]
這裏的向量能夠應用Reproducing Kernel Hilbert Space (RKHS)映射到Hilbert空間,以更高效地表徵流形。
考慮到球體不易相交,而這可能致使一些實體的損失,本文敘述能夠以超平面爲流形。即對於給定頭實體和關係類型,尾實體位於以\((\boldsymbol {\rm {h+r_{head}}})^{\rm {T}}\)爲方向、偏移量與\(D_r^2\)相關的超平面上。在空間中,只要兩個法向量不平行,這兩個超平面就會有相交。流形函數定義以下:
\[\mathcal{M}(h,r,t)=(\boldsymbol {\rm {h+r_{head}}})^{\rm {T}}(\boldsymbol {\rm {t+r_{tail}}})\]
本文敘述爲了增長給定頭實體和關係推理出精確的尾實體數量,對向量絕對值化:
\[\mathcal{M}(h,r,t)=|\boldsymbol {\rm {h+r_{head}}}|^{\rm {T}}|\boldsymbol {\rm {t+r_{tail}}}|\]
其中,\(|\boldsymbol {\rm {w}}|=(|w_1|,|w_2|,|w_3|,...,|w_n|)\)。
對於以往方法存在的ill-posed問題,本文的方法對其較好地解決。以球形爲例,本文對於每一個三元組只對應一個等式:\(\sum_{i=1}^{d}(h_i+r_i-t_i)^2=D_r^2\),因此若是知足\(d\geq \frac {\#Equation}{E+R}=\frac {T}{E+R}\)。要知足這一條件只需適當增長向量的維度,從而較好的實現精確預測。
訓練的過程是增長正例的分數,而減少負例的分數,目標函數以下:
\[\mathcal{L}=\sum_{(h,r,t)\in \Delta}\sum_{(h',r',t')\in \Delta '}[f_r'(h',t')-f_r(h,t)+\gamma]_+\]
實驗結果顯示該方法較好的實現了精確連接預測(hit@1):
筆者:本文提出以前的表示學習沒法較好的實現精確連接預測,並提出形成該問題的兩點緣由:ill-posed algebraic problem、adopting an overstrict geometric form,並針對這兩個點問題切中要害提出基於流形的表示學習方法,實驗結果顯示該方法較好的實現了精確連接預測。
- 做者:Zhigang Wang and Juanzi Li
- 機構:Tsinghua University
本文面向知識圖譜的表示學習任務,提出利用外部文本中的上下問信息輔助知識圖譜的表示學習。
本文敘述:TransE、TransH、TransR等方法沒法很好的解決非一對一關係,並且受限於知識圖譜的數據稀疏問題,基於此本文提出利用外部文本中的上下問信息輔助知識圖譜的表示學習。相似距離監督,本文首先將實體回標到文本語料中;以此獲取到實體詞與其餘重要單詞的共現網絡,該網絡能夠看作聯繫知識圖譜與文本信息的紐帶;基於此網絡,定義實體與關係的文本上下文,並將其融入到知識圖譜中;最後利用翻譯模型對實體與關係的表示進行學習。
下圖是一個簡單的圖示:
- 做者:Ruobing Xie, Zhiyuan Liu, Maosong Sun
- 機構:Tsinghua University
本文面向知識圖譜的表示學習任務,提出融入實體類型信息輔助知識圖譜的表示學習。
本文敘述:目前的大多數方法專一於利用知識圖譜中三元組結構的表示學習,而忽略了融入實體類型的信息。對於實體而言,對於不一樣的類型含義應該具備不一樣的表示。本文從Freebase中獲取實體的類型信息,並將其層次化表示,並設計了兩種編碼方式,對於不一樣的關係經過參數調整得到對應的實體表示。
- 做者:Yankai Lin, Zhiyuan Liu, Maosong Sun
- 機構:Tsinghua University
本文面向知識圖譜的表示學習任務,提出利用實體、屬性、關係三個元素來進行表示學習。
本文提出對屬性和關係加以區分,並在表示學習的過程當中區別對待,本文首先提出屬性與關係的區別,本文敘述:屬性的值通常是抽象的概念,如性別與職業等;並且經過統計發現,屬性每每是多對一的,並且對於特定的屬性,其取值大多來源於一個小集合,如性別。對關係與屬性採用不一樣的約束方式進行獨立表示學習,同時提出屬性之間的更強的約束關係。本文想法新穎,很值得借鑑。