筆者:整理2016-2017年ACL、EMNLP、SIGIR、IJCAI、AAAI等國際知名會議中實體關係推理與知識圖譜補全的相關論文,供天然語言處理研究人員,尤爲知識圖譜領域的學者參考,若有錯誤理解之處請指出,不勝感激!(如需轉載,請聯繫本人:jtianwen2014,並註明出處)web
- 做者:Yunlun Yang, Yunhai Tong, Shulei Ma, Zhi-Hong Deng
- 機構:School of Electronics Engineering and Computer Science, Peking University
本文的任務爲關係分類,即對於給定句子中的給定實體對進行關係分類。本文敘述,傳統特徵選擇的方法嚴重依賴於特徵的質量以及詞語資源,爲了達到最優每每須要耗時的人工選擇特徵子集。基於核函數的方法雖然沒必要選擇特徵,但仍需精心設計的核函數並具備較大的計算開銷。最近,隨着神經網絡的興起,深度學習所提供的端到端的方法被應用於不少經典的天然語言處理問題。RNN和CNN已經被證實對關係分類具備極大幫助。算法
然而,一些研究工做代表傳統的特徵對於關係分類的神經網絡方法仍有提升做用,能夠提供更多的信息。一個簡單而可行的方法是將詞語級的特徵和神經網絡獲取的特徵簡單組合(通常是鏈接起來),組合後的表示輸入到分類器。另外一種更加複雜的方法是根據句子的句法依存樹調整神經網絡的結構,取得了較好的效果。網絡
本文認爲,句法依存樹在關係分類的任務上是頗有價值的。本文發現實體對間的依存路徑對關係分類更有價值,相比於總體句子的依存路徑,因爲其依存路徑的距離每每小於句子的依存路徑距離,剪枝後的實體間依存路徑減小了不少噪聲信息。爲了更好的利用句法依存所提供的語言學知識,本文提出了基於句法依存樹和的位置編碼卷積神經網絡方法PECNN。方法的過程圖以下:dom
每一個詞的表示由兩部分構成:詞向量、該詞的依存樹位置特徵。位置特徵的獲取主要思想是將離散的位置映射到實數向量,它和詞向量類似,只不過是將詞替換爲離散的距離。本文提出了兩種方法來定義依存樹中的位置特徵TPF一、TPF2。TPF1中距離定義爲當前詞到目標實體的最短路徑中依存弧的個數,映射方式和PF相同,即不一樣的距離隨機初始化一個固定維度的向量,訓練的過程當中學習。一個詞到實體的最短路徑能夠劃分爲兩個子路徑:被最低祖先節點分割,TPF2則將距離用二元組表示,分別表明兩個子路徑的長度。下圖是各個詞語到實體Convulsions的TPF1與TPF2:分佈式
典型的CNN的一個卷積窗口每次獲取當前詞的鄰近上下文詞語做爲輸入,在本文中爲了充分利用樹結構信息,本文將當前詞的父節點和子節點做爲做爲其鄰近上下文輸入到卷積窗口,相應的本文對卷積核也作了修改,使用了兩種卷積核:Kernel-一、Kernel-2,具體定義見論文。其中Kernal-1旨在從依存樹中多層次抽取特徵,而Kernel-2專一於挖掘共享父節點的詞之間的語義信息。兩個核函數的大小均取3。最後將Kernel-一、Kernel-2分別池化並拼接在一塊兒做爲CNN輸出。函數
筆者:本文利用卷積神經網絡對實體關係進行分類,創新性地將依存樹做爲輸入,將詞在樹中的位置信息嵌入式表示並拼接到詞向量中共同窗習,同時,本文對CNN面向樹結構設計了獨特的卷積核。本文提出的方法在實體關係分類任務上,相比於未使用位置信息的CNN和LSTM取得了進一步提升。在實驗中本文也將POS等特徵融入PECNN,也取得了較好的結果。但文中彷佛未探討卷積核設計對結果的影響,面向樹結構的卷積核的設計是不是本文獨立提出的?讀者可參看文中參考文獻探尋一下。學習
- 做者:Shu Guo, Quan Wang, Lihong Wang§, Bin Wang, Li Guo
- 機構:Institute of Information Engineering, Chinese Academy of Sciences
本文的任務爲知識圖譜表示學習,本文提出邏輯規則包含豐富的背景信息,但始終沒有很好的在知識圖譜表示學習的任務上被研究。本文提出KALE的方法,將知識圖譜與邏輯規則進行聯合嵌入表示學習。優化
以前有學者同時利用知識表示方法和邏輯規則,但兩者是分開建模的,這也使得並未獲得更好的嵌入式表示。Rocktaschel et al. (2015)提出聯合模型將一階邏輯融入嵌入式表示,但這項工做專一於關係分類,對實體對進行嵌入表示僅建立一個向量表示,而不是實體擁有各自的表示。編碼
KALE方法可分爲三個部分:三元組建模、邏輯規則建模,以及聯合學習。一個總體的方法框圖以下圖所示:spa
對於三元組建模部分使用簡單的翻譯模型(TransE衍生)完成,具體的打分函數以下:
\[I(e_i, r_k, e_j)=1-\frac {1}{s\sqrt {d}}||\mathbf{e}_i+\mathbf{r}_k-\mathbf{e}_j||_1\]
對於邏輯規則建模部分,本文使用t-norm模糊邏輯(t-norm fuzzy logics),本文主要考慮兩種類型的邏輯:第一類是:\(\forall x,y: (x,r_s,y)\Rightarrow (x,r_t,y)\),給定\(f\triangleq (e_m,r_s,e_n)\Rightarrow (e_m,r_t,e_n)\),置信度的計算以下:
\[I(f)=I(e_m,r_s,e_n)\cdot I(e_m,r_t,e_n)-I(e_m,r_s,e_n)+1\]
其中,\(I(\cdot ,\cdot ,\cdot)\)是三元組建模時的置信度函數。
第二類是:\(\forall x,y,z: (x,r_{s1},y)\land (y,r_{s2},z)\Rightarrow (x,r_t,z)\),給定\(f\triangleq (e_l,r_{s1},e_m)\land (e_m,r_{s2},e_n)\Rightarrow (e_l,r_t,e_n)\),置信度的計算以下:
\[I(f)=I(e_l,r_{s1},e_m)\cdot I(e_m,r_{s2},e_n)\cdot I(e_l,r_t,e_n)-I(e_l,r_{s1},e_m)\cdot I(e_m,r_{s2},e_n)+1\]
聯合學習的過程一樣是時整理三元組的置信度遠大於負例三元組的置信度。
值得注意的是,雖然規則只有兩種,但爲了應用於實際必須找到規則的關係實例,爲了緩解人工的壓力,本文使用了半自動的方法構造規則關係實例。其方法是,首先利用TransE學習到實體和關係的表示,爲可能存在這兩個邏輯規則的實體關係計算置信度,而後進行排序,進而選擇符合邏輯規則的實體關係實例。部分實例以下:
筆者:本文提出將邏輯規則融入知識圖譜嵌入式表示學習的方法,而且邏輯規則和三元組的學習是聯合進行的。方法提高的瓶頸彷佛在邏輯規則的選擇與實例的構造上,本文使用了本自動的方法構建,雖然這一部分並不是本文重點,但確實該方法是夠有效能夠應用於大規模知識圖譜的關鍵,本文對FB15K構建了47個規則實例,但對於大規模知識圖譜這些規則還遠遠不夠,這種規則的方法存在移植性的問題,是否能夠考慮使用隨機遊走獲取此類邏輯規則,相似PRA中使用的方法。另外,將關係路徑融入表示學習的方法和本文的方法較爲相似,實質上都是利用關係路徑去推理關係。
- 做者:Zhuoyu Wei, Jun Zhao and Kang Liu
- 做者:University of Chinese Academy of Sciences
本文的任務爲面向知識圖譜的實體關係推理,即利用知識圖譜中已有的關係推理新的關係事實。推理規則對於基於知識圖譜的關係推理有着顯著的做用,而人工構造大量的推理規則是不現實的。目前基於數據驅動的自動挖掘推理規則的方法中,隨機遊走的方法被認爲最適用於知識圖譜。然而,在知識圖譜中無目的的單純隨機遊走挖掘有價值的推理規則的效率較低,甚至會引入誤導的推理規則。儘管一些學者提出使用啓發式規則指導隨機遊走,但因爲推理規則的多樣性,這種方法仍沒法取得較好的效果。
針對以上現狀,本文提出一種目標引導的推理規則挖掘算法:在隨機遊走的每一步使用明確的推理目標做爲方向。具體地,爲了達到目標引導的機制,在每一步隨機遊走的過程當中,算法根據最終目標動態地估計走向各個鄰居的潛在可能性,根據潛在可能性分配遊走到各個鄰居的機率。好比,當推理「一我的的語言」時,算法更傾向走「國籍」邊而非「性別」邊。
本文首先回顧了基本的用於推理規則挖掘的隨機遊走算法,其中也提到早期基於枚舉的(枚舉給定知足關係的實體對之間的全部路徑)根據頻率計算置信度的推理規則挖掘算法。隨機遊走算法隨機地(機率均等,和出度有關)選擇下一跳到達的鄰居,而非遍歷全部鄰居。因而可知,這種隨機遊走的算法是獨立用目標的。並且,因爲隨機性,隨機遊走沒法保證高效低挖掘到目標實體對的路徑,甚至引入噪聲。爲了緩解這一問題,PRA引入了啓發式的規則:對機率矩陣進行修改,是的鄰居的選擇並不均等,而是依據到達目標實體的可能性。
爲了實現目標引導的隨機遊走,本文對給定目標(\(\rho=R(H,T)\))的狀況下,對實體\(i\)到\(j\)的連邊g(關係\(r\))被選擇的機率定義爲:
\[ P_{r_{i,j}}= \begin{cases} \frac {\Phi (r(i,j),\rho)}{\sum_{k\in Adj(i)}\Phi (r(i,j),\rho)}, &\mbox{}j\in Adj(i)\\ 0, &\mbox{}j\notin Adj(i) \end{cases} \]
其中,\(\Phi(r(i,j),\rho)\)是在給定目標\(\rho\)狀況下,對實體\(i\)到\(j\)的連邊被選擇的可能性測量。路徑的出發點爲\(H\),最終要到達\(T\),遊走的過程當中遞歸定義已走路徑的似然爲:\(P_{pHt}=P_{pHs}\cdot P_{r_st}\)。似然函數定義爲:
\[\rm{max} P_{\mathbb{P}}=\prod_{pHt\in \mathbb{P}}P_{pHt}^{a}(1-P_{pHt})^{b+c}\]
其中\(\mathbb{P}\)是隨機遊走得到的路徑集合,\(a,b,c\)分別對應三種狀況,a)\(t=T\)且產生正確的推理規則;a)\(t\not=T\);c)\(t=T\)且產生噪聲推理規則;\(a,b,c\)都是0-1值,且每次有且只有一個爲1。將最大化轉爲最小化\(L_{rw}=-\rm{log} P_{\mathbb{P}}\),本文中又將該目標函數劃分爲兩部分來計算:\(L_{rw}=L_{rw}^t+\lambda L_{rw}^{inf}\)。對於一個明確的路徑\(p\),\(L_{rw}\)能夠寫爲:
\[L_{rw}(p)=-y\rm{log} P_{p}-(1-y)\rm{log} (1-P_{p})\]
\(\Phi(r(i,j),\rho)\)的計算須要融入知識圖譜全局的信息,爲了減小計算量,本文引入知識圖譜的嵌入表示來計算\(\Phi\):
\[\Phi(r(i,j),\rho)=\Psi(E_{r(i,j)},E_{R(H,T)})\]
其中,\(\Psi(E_{r(i,j)},E_{R(H,T)})=\sigma(E_{r(i,j)}\cdot E_{R(H,T)})\),\(E_{r(i,j)}=[E_r, E_j]\),\(E_{R(H,T)}=[E_R, E_T]\),\(E_r,E_j,E_R,E_T\)表明關係和實體的嵌入式表示。
訓練推理模型的算法以下:
最終的推理是利用打分函數,對規定實體對的不一樣關係進行打分:
\[\mathcal{X}(\rho)=\sum_{f\in F_{\rho}}\delta(f)\]
其中,\(F_{\rho}\)是隨機遊走爲關係找到的推理規則集合,\(\delta(f)=w_f\cdot n_f\)。最後本文應用邏輯斯諦迴歸來對實體關係機率進行計算:
\[P(\rho = y|\mathcal{X})=\mathcal{F}(\mathcal{X})^y(1-\mathcal{F}(\mathcal{X}))^{1-y}\]
\[\mathcal{F}(\mathcal{X})=\frac{1}{1+e^{-x}}\]
筆者:對於隨機遊走的無目標指導從而致使推理規則挖掘效率低並引入噪聲的問題,本文在隨機遊走的每一步引入目標的指導,即根據路徑對目標實現的可能性計算遊走到各個鄰居的機率,而不是隨機選擇。
- 做者:Thomas Demeester, Tim Rocktäschel and Sebastian Riedel
- 機構:Ghent University - iMinds
- 機構:University College London
本文提出了一種將規則注入到嵌入式表示中,用於關係推理的方法。本文敘述,嵌入式的表示方法能夠從大規模知識圖譜中學習到魯棒性較強的表示,但卻常常缺少常識的指導。將兩者融合起來的方法,已經取得了較好的效果,其常識常常以規則的形式出現。但在大規模知識圖譜中,因爲一些規則並非獨立於實體元組的,因此這些規則所能覆蓋的實例僅佔一小部分,如:\(\forall x: \rm{isMan}(x)\Rightarrow \rm{isMortal}(x)\)。
本文提出將隱式的規則融入到實體和關係的分佈式表示中。本文首先回顧了Riedel et al. (2013)的工做,在該工做中,做者用兩個向量\(\boldsymbol{r,t}\)來分別表徵關係和實體元組(頭尾實體對),優化的目標是:\(\boldsymbol{r_p^{\rm{T}}t_p\leq r_q^{\rm{T}}t_q}\),其中\(p\)表明負例的標識。並以此優化目標定義相應的損失函數:
\[\mathcal{L}_R=\sum_{(r,t_q)\in \mathcal{O},t_p\in \mathcal{T},(r,t_p)\notin \mathcal{O}}l_R(\boldsymbol{r^\rm{T}[t_p-t_q]})\]
爲了將如:\(\forall t\in \mathcal(T): (r_p,t)\Rightarrow (r_q,t)\)的規則融入分佈式表示,本文模仿上述方法,能夠將上述規則轉化爲:
\[\forall t\in \mathcal{T}:\boldsymbol{r_p^{\rm{T}}t_p\leq r_q^{\rm{T}}t_q}\]
也就是左側元組分數越高,右側元組分數必然更高,從而達到左側元組成立,右側必定成立的推理原則。同時優化損失函數:
\[\mathcal{L}_R=\sum_{\forall t \in \mathcal{T}}l_R(\boldsymbol{[t_p-t_q]^\rm{T}\tilde t})\]
其中,\(\boldsymbol{\tilde t}:=t/{||t||_1}\)。
爲了減小計算花銷,同時到達獨立於實體元組的目的,本文對目標損失函數作了以下修改:
\[\mathcal{L}_I=\sum_{\forall t \in \mathcal{T}}l_I(\sum_{i=1}^{k}\tilde t_i\boldsymbol{[t_p-t_q]^\rm{T}\bf{1}_i})\]
進一步有:
\[\mathcal{L}_I\leq \sum_{i=1}^{k}l_I(\boldsymbol{[t_p-t_q]^\rm{T}\bf{1}_i})\sum_{\forall t \in \mathcal{T}}\tilde t_i\]
令:
\[\mathcal{L}_I^U:= \sum_{i=1}^{k}l_I(\boldsymbol{[t_p-t_q]^\rm{T}\bf{1}_i})\]
經過最小化損失函數\(\mathcal{L}_I^U\),能夠將隱式規則\((r_p,t)\Rightarrow (r_q,t)\)融入到表示中。其餘細節請參看原文,這裏不作贅述。