如需轉載,請聯繫本人:jtianwen2014,並註明出處web
- 做者:Dian Yu, Heng Ji
- 機構:Computer Science Department, Rensselaer Polytechnic Institute
本文的任務爲槽填充(Slot Filling),即從大規模的語料庫中抽取給定實體(query)的被明肯定義的屬性(slot types)的值(slot fillers)。對於此任務,本文敘述目前主流的方法能夠分爲兩類:有監督的分類方法,設計分類器識別給定的實體與值所屬的關係類型,分類器的訓練每每使用如活動學習、利用距離監督的噪聲標註等方法;模式匹配方法,從文本中自動或半自動地抽取和生成詞法或句法的模式,以用於關係的抽取,但由於關係所表述的方式千差萬別,這種模式匹配方法沒法擁有較好的召回率。 算法
本文認爲,以上兩類方法都沒法很好的應對新的語言或是出現新的關係類型的狀況,即移植性不強;並且,兩種方法都只是專一於實體和候選值以前的平坦表示,並無考慮到它們之間的全局結構關係,以及語句中其餘的關係事實的影響。本文重要的算法思想基於如下兩個觀察: 編程
基於以上兩個觀察,本文的提出了一種基於圖的槽填充的方法:首先,利用簡單的啓發式規則,從句子中識別出候選實體與屬性值;而後,對於給定候選實體與屬性值對,利用PageRank圖算法和AP(Affinity Propagation)聚類算法自動識別觸發詞;最後,根據識別的觸發詞對屬性類型(slot type)進行分類。本文主要的思想在於,以屬性觸發詞爲切入點進行關係的挖掘,將PageRank算法與AP算法引入其中。候選實體與屬性值的識別、屬性類型的分類這兩個部分使用了啓發式的規則與外部的詞典資源。 網絡
- 做者:Quan Wang†, Jing Liu‡, Yuanfei Luo†, Bin Wang†, Chin-Yew Lin‡
- 機構†:Institute of Information Engineering, Chinese Academy of Sciences
- 機構‡:Microsoft Research
本文的任務爲知識庫補全,即經過考察知識庫中已經存在的事實,自動推理出丟失的事實。本文敘述這項任務的方法大致分爲三種: 併發
因爲PRA方法具備較好的解釋性,而且不須要額外的邏輯規則,本文主要使用PRA方法對其改進。在利用PRA進行關係推理時,以往的方法都是在推理階段,利用PRA爲每一個關係獨立建模,也就是爲每一個關係學習一個獨立的分類器。 app
本文的初衷是:若是使用PRA對某些關係集體建模是否會獲得更好的效果,尤爲是當這些關係彼此緊密聯繫的時候,好比,「出生」和「生長於」這兩個關係極有可能共同擁有一些關係路徑:「國籍->首都」等。不少研究代表這種多任務學習相比單任務學習而言,每每具備更好的效果。本文提出CPRA的方法,該方法所要解決兩個問題:(1)哪些關係須要組合在一塊兒學習?(2)如何組合在一塊兒學習?框架
- 做者:Xiang Li∗‡ Aynaz Taheri† Lifu Tu‡ Kevin Gimpel‡
- 機構∗:University of Chicago
- 機構†:University of Illinois at Chicago
- 機構‡:Toyota Technological Institute at Chicago
本文的任務是常識知識庫的補全工做,即根據已有的知識推理預測概念之間心的知識。不一樣於通常的知識庫,如FreeBase,常識知識庫ConceptNet的結點主要爲短語,而非實體。本文利用神經網絡的方法將ConceptNet中詞項向量話表示,對於給定的元組進行打分以得到置信度較高的元組用以補全。ide
- 做者:Kristina Toutanova, Xi Victoria Lin∗, Wen-tau Yih, Hoifung Poon, Chris Quirk
- 機構:Microsoft Research
- 機構∗:University of Washington
本文的任務爲知識圖譜補全,推理預測實體間潛在的關係。本文敘述,當前的一些學者將關係路徑信息融入到知識庫嵌入式表示中,取得了很是顯著的結果。知識庫嵌入式表示,指的是將知識庫中實體和關係映射到低維稠密的空間中,知識的推理轉化爲實體與關係所關聯的向量或矩陣之間的運算。這種嵌入式的表示,操做花銷較小,推理的效率較高。爲了進一步提高基於嵌入式表示的關係推理,一些學者將關係路徑信息融入其中。工具
本文發現,目前的將關係路徑融入知識庫的嵌入式表示方法存在以下問題:首先,當關系的路徑總類增多時,時間開銷較大,嚴重影響推理的效率;另外,目前的方法只考慮了路徑信息,沒有考慮結點的信息,即便是相同路徑,包含不一樣結點也擁有不一樣的信息。本文提出了一種動態編程的方法,能夠高效地將關係路徑融入到知識庫的嵌入式表示,而且同時對路徑上的關係類型和結點進行表示。學習
- 做者:Han Xiao, Minlie Huang∗, Xiaoyan Zhu
- 機構:State Key Lab. of Intelligent Technology and Systems National Lab. for Information Science and Technology
- 機構∗:Dept. of Computer Science and Technology Tsinghua University
本文的任務爲知識圖譜表示學習,旨在將知識圖譜映射到低維稠密的向量空間裏。與以往研究工做不一樣,本文將目光聚焦於「多語義關係」,即同一名相的關係可能具備不一樣的語義含義,如對於關係「HasPart」,對於實體「桌子」和「桌腿」有這種關係,對於「英國」和「倫敦」也一樣具備這樣的關係,但兩者所表達的含義卻不盡相同。
不止於感性層面上,本文對TransE的知識圖譜向量表示進行可視化(PCA降維):抽取四種不一樣關係,將具備給定關係的實體對向量相減(據TransE思想,能夠獲得關係的向量),將結果向量展現在二維空間裏。理想狀況下,對於每一個關係應該只和一個簇對應,但真實的結果是每一個關係不止一個簇,而是多個明顯分開的簇。這也從另外一個角度說明了關係的多語義性質。
針對這一問題,本文提出貝葉斯非參數混合嵌入式表示模型,TransG。TransG能夠自動發現關係的多語義簇,而且利用關係的混合語義對實體對進行翻譯操做,以進行關係推理。
- 做者:Di Lu1, Xiaoman Pan1, Nima Pourdamghani2, Shih-Fu Chang3, Heng Ji1, Kevin Knight2
- 機構1:Computer Science Department, Rensselaer Polytechnic Institute
- 機構2:Information Sciences Institute, University of Southern California
- 機構3:Electrical Engineering Department, Columbia University
文本的任務爲low-resource語言(LLs)的實體識別,即從LLs的文本中發現實體。在某些狀況下,如突發事件以及天然災害發生時,咱們常常須要構建一個LLs的信息抽取工具。對於LLs的信息抽取,其主要的挑戰在於缺少目標語言的標註數據以及相應的語言處理工具,一個較爲承認的解決方案是:從high-resource語言(HLs)(如英語)文本中抽取信息,並進行知識映射。
對於突發事件的發生,在LLs和HLs中每每存在着大量的非併發的、領域豐富的、主題相關的文本語料,如社交媒體。可是若是沒有高效的機器翻譯技術,即便在HLs中識別出信息也是無濟於事。本文發現,在這些文檔中經常存在着大量的媒體數據,這些媒體數據在不一樣的語言上每每是類似的,如圖片、視頻,即語言獨立的。
基於這個啓發,本文以圖片爲樞紐自動發現內容類似的LLS和HLs文檔數據,而後在HLs文檔中進行實體識別與鏈指,最後藉助多媒體的相關技術將結果映射到LLs。基於這個思想,本文提出兩個組件:名稱標註、跨語言實體鏈指(CLEL)。
整體框架包含兩個步驟:(1)應用語言獨立的關鍵短語抽取方法對LLs文檔進行處理,利用這些短語搜索出種子圖片,用於進一步檢索相關圖片以及包含這些圖片的HLs文檔;(2)從HLs文檔中抽取知識,設計知識遷移的方法精煉LLs文檔的抽取結果。
- 做者:Ander Barrena, Aitor Soroa, Eneko Agirre
- 機構:IXA NLP Group, UPV/EHU University of the Basque Country
本文的任務爲實體消歧,即將文本中的名相實體連接到知識庫中的實體實例。本文敘述,目前的實體鏈指的工做方法主要分爲兩類:(1)mention模型,經過先驗機率對可能的實體進行排序;(2)上下文模型,從上下文中抽取特徵,進行實體的鏈指。另外,最近有提出利用上下文中共現的實體來肯定目標實體的鏈指。
本文發現了以往方法受到低質量上下文的影響致使連接失敗,不少狀況下,上下文所提供的線索很弱或是有誤導的可能。本文引入了背景知識來緩解低質量上下文的問題。本文主要引入了兩部分背景知識:(1)和目標實體具備類似分佈的實體(本文利用word2vec);(2)利用上下文的句法依存關係,引入依存的偏好,如上下文中的「visit to」和目標實體有動賓關係,與「visit to」具備動賓關係的主要是地名,因此目標實體極可能是地名。
- 做者:Kathleen McKeown, Christopher Hidey
- 機構:Department of Computer Science, Columbia University
本文的任務爲識別句中指示因果關係的短語,並對其進行份分類。因果關係的檢測是一項十分困難的任務。首先,大多數的因果關係都是隱式表達的,這須要一些背景知識進行推理才能得知;其次,即便對於顯式表達的因果,其表達的方式也是多種多樣。在PDTB中,有102種顯式語篇關係makers,其中有28種指示因果關係,如「because」、「as a result」等。PDTB的研究學者發現了開放的makers存在,將其稱爲Altlex,其中指示因果關係的包括如「This may help explain why」、「This activity produced」等開放式的表達方式。對於因果關係,顯示maker s能夠以較高的準確率被識別,但卻不多;隱式makers較多的存在於語句中,但不易識別,Altlex則介於這兩者之間:因爲其變化多樣,因此識別起來較爲困難,但Altlex的出現也使得因果關係的識別狀況能夠有提高空間。
數據的缺失是因果識別的關鍵問題。無監督學習的準確率較低,而監督學習又須要大量的訓練數據已達到較高的找匯率。本文利用維基百科平行語料識別出新的因果關係makers,這些makers也是已知makers的變種,進而經過距離監督創造訓練語料。利用開放的makers和上下文特徵訓練出因果分類器。