筆者:整理2016-2017年ACL、EMNLP、SIGIR、IJCAI、AAAI等國際知名會議中實體關係推理與知識圖譜補全的相關論文,供天然語言處理研究人員,尤爲知識圖譜領域的學者參考,若有錯誤理解之處請指出,不勝感激!(如需轉載,請聯繫本人:jtianwen2014,並註明出處)web
- 做者:Dian Yu, Heng Ji
- 機構:Computer Science Department, Rensselaer Polytechnic Institute
本文的任務爲槽填充(Slot Filling),即從大規模的語料庫中抽取給定實體(query)的被明肯定義的屬性(slot types)的值(slot fillers)。對於此任務,本文敘述目前主流的方法能夠分爲兩類:有監督的分類方法,設計分類器識別給定的實體與值所屬的關係類型,分類器的訓練每每使用如活動學習、利用距離監督的噪聲標註等方法;模式匹配方法,從文本中自動或半自動地抽取和生成詞法或句法的模式,以用於關係的抽取,但由於關係所表述的方式千差萬別,這種模式匹配方法沒法擁有較好的召回率。算法
本文認爲,以上兩類方法都沒法很好的應對新的語言或是出現新的關係類型的狀況,即移植性不強;並且,兩種方法都只是專一於實體和候選值以前的平坦表示,並無考慮到它們之間的全局結構關係,以及語句中其餘的關係事實的影響。本文重要的算法思想基於如下兩個觀察:網絡
基於以上兩個觀察,本文的提出了一種基於圖的槽填充的方法:首先,利用簡單的啓發式規則,從句子中識別出候選實體與屬性值;而後,對於給定候選實體與屬性值對,利用PageRank圖算法和AP(Affinity Propagation)聚類算法自動識別觸發詞;最後,根據識別的觸發詞對屬性類型(slot type)進行分類。app
下圖爲利用PageRank算法對候選觸發詞結點打分: 函數
下圖爲利用AP算法對候選觸發詞進行聚類(關係觸發詞可能不止一個單詞),以選定最終觸發詞。以下圖最終選定「divorced」爲最終觸發詞。 學習
筆者:本文主要的思想與創新點在於,以屬性觸發詞爲切入點進行關係的挖掘,將PageRank算法與AP算法引入其中,將槽填充問題轉換爲圖上的挖掘問題。候選實體與屬性值的識別、屬性類型的分類這兩個部分使用了啓發式的規則與外部的詞典資源。但這中圖挖掘的方法,因爲應用句法依存與PageRank算法有可能在計算複雜性上存在問題。優化
- 做者:Quan Wang†, Jing Liu‡, Yuanfei Luo†, Bin Wang†, Chin-Yew Lin‡
- 機構†:Institute of Information Engineering, Chinese Academy of Sciences
- 機構‡:Microsoft Research
本文的任務爲知識庫補全,即經過考察知識庫中已經存在的事實,自動推理出丟失的事實。本文敘述這項任務的方法大致分爲三種:ui
因爲PRA方法具備較好的解釋性,而且不須要額外的邏輯規則,本文主要使用PRA方法對其改進。在利用PRA進行關係推理時,以往的方法都是在推理階段,利用PRA爲每一個關係獨立建模,也就是爲每一個關係學習一個獨立的分類器。spa
本文的初衷是:若是使用PRA對某些關係集體建模是否會獲得更好的效果,尤爲是當這些關係彼此緊密聯繫的時候,好比,「出生」和「生長於」這兩個關係極有可能共同擁有一些關係路徑:「國籍->首都」等。不少研究代表這種多任務學習相比單任務學習而言,每每具備更好的效果。本文提出CPRA的方法,該方法所要解決兩個問題:(1)哪些關係須要組合在一塊兒學習?(2)如何組合在一塊兒學習?翻譯
(1)哪些關係須要組合在一塊兒學習?本文提出了一種基於公共路徑的類似度度量方法,並在此基礎上將關係聚成不一樣的組,同組的關係共同窗習。公共路徑的類似度具體值依據兩個關係(或簇)的路徑交集數量佔比。
(2)如何組合在一塊兒學習?依循多任務學習的原則,對於共同訓練的分類器使用兩部分參數,即共享參數和私有參數。共享參數能夠體現類似關係之間的得共性,私有參數用於描述不一樣關係之間的特性。這兩類參數在訓練過程當中是聯合學習的。
筆者:PRA的方法的應用可能存在侷限,好比對於開放域知識圖譜,如Reverb等,其關係類型多樣且未事先定義,則沒法對於每一個類別訓練分類器;並且這種每一個類別訓練分類器的方法消耗實在較大,更不利於給定實體對的關係推理。是否能夠統一爲一個分類器,或者不是分類器,而是生成器,生成給定實體對的可能關係,這樣就應用於關係類型體系未知的開放域知識圖譜。
- 做者:Kristina Toutanova, Xi Victoria Lin∗, Wen-tau Yih, Hoifung Poon, Chris Quirk
- 機構:Microsoft Research
- 機構∗:University of Washington
本文的任務爲知識圖譜補全,推理預測實體間潛在的關係。本文敘述,當前的一些學者將關係路徑信息融入到知識庫嵌入式表示中,取得了很是顯著的結果。知識庫嵌入式表示,指的是將知識庫中實體和關係映射到低維稠密的空間中,知識的推理轉化爲實體與關係所關聯的向量或矩陣之間的運算。這種嵌入式的表示,操做花銷較小,推理的效率較高。爲了進一步提高基於嵌入式表示的關係推理,一些學者將關係路徑信息融入其中。
本文發現,目前的將關係路徑融入知識庫的嵌入式表示方法存在以下問題:首先,當關系的路徑總類增多時,時間開銷較大,嚴重影響推理的效率;另外,目前的方法只考慮了路徑信息,沒有考慮結點的信息,即便是相同路徑,包含不一樣結點也擁有不一樣的信息。本文提出了一種動態規劃的方法,能夠高效地將關係路徑融入到知識庫的嵌入式表示,而且同時對路徑上的關係類型和結點進行表示。
本文以基因調控網絡爲例,網絡的節點是基因,邊爲兩個關鍵的關係:正調控、負調控,爲了聯合表示文本信息,將基因共現的文本語句的依存關係嵌入到網絡中,所下圖所示,紅色邊爲原網絡的調控關係,灰色邊爲文本依存信息:
基本的知識圖譜嵌入式表示學習的方法是,首先學習實體和關係的向量(或矩陣)表示,而後一用學習到的參數\(\theta\)和函數\(f(s,r,t|\theta)\)爲可能的三元組進行打分。其中,雙線性模型(BILINEAR)用矩陣表徵關係,向量表徵實體,打分函數\(f\)定義爲:\(f(s,r,t|\theta)=x_s^{\rm T}W_rx_t\)。
另外,爲了減小參數,本文介紹了另外一種模型雙線性-對角模型,即將關係矩陣\(W\)替換爲對角矩陣。
將關係路徑引入嵌入式表示通常有兩種方法:(1)利用關係路徑生成輔助的三元組用於訓練(經過隨機遊走得到路徑,端點實體的關係用關係路徑代替);(2)將關係路徑做爲特徵用於打分,打分函數替換爲\(f(s,r,t|\theta,\prod_{s,t})\),\(\prod_{s,t}\)爲路徑上關係嵌入式表示的加權求和。對於雙線性模型,關係路徑\(\pi\)的嵌入式表示通常爲:\(\Phi_{\pi}=W_{r_1}...W_{r_n}\)。
本文更偏向於第二種方法,由於其對路徑上的關係進行剪枝。本文對\(f(s,r,t|\theta,\prod_{s,t})\)作了詳細設計與定義:用\(F(s,t)\)表明\(\prod_{s,t}\),用\(P(t|s,\pi)\)表明頭實體通過路徑到達尾實體的機率,令:\(F(s,t)=\sum_{\pi}w_{|\pi|}P(t|s,\pi)\Phi(\pi)\)。最終\(f(s,r,t|\theta,\prod_{s,t})\)定義爲:
\[f(s,r,t)=x^{\rm T}W_rx_t+vec(F(s,t))^{\rm T}vec(W_r)\]
其中\(F(s,t)\)的計算時間消耗較大,本文經過使用動態規劃的方法ALL-PATH高效學習與計算該打分函數,使得能夠高效地將關係路徑融入到知識庫的嵌入式表示,而且同時對路徑上的關係類型和結點進行表示。本文用參數\(w_{e_i}\)用於表示對通過實體\(e_i\)路徑的影響,對於雙線性模型:\(\Phi_{\pi}=W_{r_1}tanh(w_{e_1})...W_{r_n}tanh(w_{e_n})\)。用\(F_l(s,t)\)表示實體\(s\)和\(t\)之間長度爲\(l\)的路徑的加權和,則有:
\[F(s,t)=\sum_{l=1...L}w_lF_l{s,t}\]
其中,\(F_l{s,t}=\sum_{\pi \in P_l(s,t)}P(t|s,\pi)\Phi_{\pi}\),\(P_l(s,t)\)表示實體\(s\)和\(t\)之間長度爲\(l\)的路徑。
動態規劃算法以下圖所示:
筆者:本文針對以往融合路徑信息的嵌入式表示方法的時間複雜度進行優化,並加入節點信息,旨在高效運算並融入更充分的信息。本文的方法ALL-PATH在時間和效果上優於以前的方法。本文的方法的實現基於的是雙線性模型,這裏應該只是示例,徹底能夠將雙線性替換爲其餘模型,這種關係路徑集成的思想能夠應用於不少已有的嵌入式表示學習方法,因此本文的最大亮點應該在於動態規劃的提出,用以高效的計算。
- 做者:Han Xiao, Minlie Huang, Xiaoyan Zhu
- 機構:Dept. of Computer Science and Technology, Tsinghua University
本文的任務爲知識圖譜表示學習,旨在將知識圖譜映射到低維稠密的向量空間裏。與以往研究工做不一樣,本文將目光聚焦於「多語義關係」,即同一名相的關係可能具備不一樣的語義含義,如對於關係「HasPart」,對於實體「桌子」和「桌腿」有這種關係,對於「英國」和「倫敦」也一樣具備這樣的關係,但兩者所表達的含義卻不盡相同。
不止於感性層面上,本文對TransE的知識圖譜向量表示進行可視化(PCA降維):抽取四種不一樣關係,將具備給定關係的實體對向量相減(據TransE思想,能夠獲得關係的向量),將結果向量展現在二維空間裏。理想狀況下,對於每一個關係應該只和一個簇對應,但真實的結果是每一個關係不止一個簇,而是多個明顯分開的簇。這也從另外一個角度說明了關係的多語義性質。
針對這一問題,本文提出TransG模型,利用貝葉斯非參數無限混合嵌入式表示模型來生成關係的多語義表示。TransG能夠自動發現關係的多語義簇,而且利用關係的混合語義對實體對進行翻譯操做,以進行關係推理。
本文利用了兩個重要的模型和算法,分別是貝葉斯非參數無限混合嵌入式表示模型和中餐館過程算法。具體的實體與關係嵌入式表示生成過程以下:
經過該過程會得到初始化的實體與關係向量,三元組的打分函數爲:
\[\sum_{m=1}^{M_r}\pi_{r,m}e^{-\frac{||u_h+u_{r,m}-u_t||_2^2}{\sigma_h^2+\sigma_t^2}}\]
不一樣於以往的方法,本文對於關係的描繪更爲細化,對於實體對,能夠確切得到多語義關係的明確語義:
\[m_{(h,r,t)}^*=argmax_{m=1...M_r}(\pi_{r,m}e^{-\frac{||u_h+u_{r,m}-u_t||_2^2}{\sigma_h^2+\sigma_t^2}})\]
\[h+u_{r,m_{(h,r,t)}^*}\approx t\]
學習過程是是的正例的分數不斷提升,負例的分數不斷減小,最終得到實體與關係的表示。
筆者:本文的切入點是多語義關係存在於知識庫中,而以前的模型沒有考察並解決這一問題。本文使用非參數貝葉斯模型,藉助CRP算法用於對關係多語義的識別與生成。本文主要的貢獻在於提出了多語義關係的問題,並藉助CRP解決這一問題。