CIPS青工委學術專欄第3期 | 基於深度學習的關係抽取 http://www.cipsc.org.cn/qngw/?p=890git
這裏總結得很好github
出現的知乎的連接筆記部分是我寫的,也有個人同窗寫的。知乎id: WhiteAndWhiteweb
(本人是北郵研究生,畢設的方向是實體關係抽取,在這裏總結一下我看過的關於這個task的文獻,確定有不少錯誤,還請你們指出。知乎上有我實驗室的專欄,我在上面會每隔三個禮拜發佈一篇文章,通常都是關於本task的。本人才疏學淺,代碼能力接近0,你們見笑了。) 算法
傳統的關係抽取方法總結:網絡
基於句法解析加強的方法,Milleret al. 2000函數
基於邏輯迴歸的方法,Kambhatla 2004性能
基於核函數的方法,Zhao and Grishman 2005; Bunescu and Mooney 2006學習
基於條件隨機場的方法,Culotta et al. 2006ui
遠程監督,Distant supervision,Mintz et al. 2009spa
基於無向圖模型的關係抽取方法,Yao et al. 2010
加強遠程監督的假設,Riedel et al. 2010
改進實體對齊,Takamatsuet al. 2012
多實例多標籤,Hoffmann etal. 2011
多標籤多實例+貝葉斯網絡,Surdeanu etal. 2012
基於深度學習的關係抽取方法(2015年以前的,CNN剛剛火起來):
RNN,Socher et al. 2012
[Socher et al. 2012] 提出使用遞歸神經網絡來解決關係抽取問題。該方法首先對句子進行句法解析,而後爲句法樹上的每一個節點學習向量表示。經過遞歸神經網絡,能夠從句法樹最低端的詞向量開始,按照句子的句法結構迭代合併,最終獲得該句子的向量表示,並用於關係分類。該方法可以有效地考慮句子的句法結構信息,但同時該方法沒法很好地考慮兩個實體在句子中的位置和語義信息。
CNN,Zeng et al. 2014
他們採用詞彙向量和詞的位置向量做爲卷積神經網絡的輸入,經過卷積層、池化層和非線性層獲得句子表示。經過考慮實體的位置向量和其餘相關的詞彙特徵,句子中的實體信息可以被較好地考慮到關係抽取中。
CNN,新的損失函數,Santos et al. 2015
後來,[Santos et al. 2015]還提出了一種新的卷積神經網絡進行關係抽取,其中採用了新的損失函數,可以有效地提升不一樣關係類別之間的區分性。
CNN,擴展至遠程監督,Zeng et al. 2015
理解遠程監督 a glance at Distant Supervision
什麼是遠程監督呢?一開始是由於以爲人工標註數據比較費時費力,那麼就有人想來個自動標註的方法。遠程監督就是幹這個事兒的。
假設知識庫KB當中存在實體與實體的關係,那麼將KB當中的關係引入到正常的天然語言句子當中進行訓練,例如‘蘋果’和’喬布斯’在KB中的關係是CEO,那麼咱們就假設相似於「【喬布斯】發佈了【蘋果】的新一代手機」的句子上存在CEO的關係,如此,利用KB對海量的文本數據進行自動標註,獲得標註好的數據(正項),再加入一些負項,隨後訓練一個分類器,每一個分類是一個關係,由此實現關係抽取。
09年的文章就是這個思想:在KB中有一個triplet,那麼在corpus中凡有這個entity pair的sentence全都當成含有這個relation的instance
下面是我閱讀過的文獻,幾乎都是基於深度學習的。這些文章有些頗有新意,也有一些是在單純灌水。
論文總結 paper reading
論文名稱:Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks
論文信息:Zeng et al. 2015 EMNLP
模型名稱:PCNN
論文內容:很是經典的文章,分段式的max pooling。後面作的文章都要引用這篇文章。
原文地址:http://aclweb.org/anthology/D/D15/D15-1203.pdf
論文名稱:Bidirectional Recurrent Convolutional Neural Network for Relation Classification
做者信息:Rui Cai 2016 ACL
模型名稱:BRCNN
論文內容:本文提出了一個基於最短依賴路徑(SDP)的深度學習關係分類模型,文中稱爲雙向遞歸卷積神經網絡模型(BRCNN)
原文地址:http://www.aclweb.org/anthology/P/P16/P16-1072.pdf
論文名稱:End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures
做者信息:Miwa et al. 2016
模型名稱:BiLSTM SPTree
論文內容:用了一種樹形的結構
原文地址:http://www.aclweb.org/anthology/P/P16/P16-1105.pdf
論文名稱:Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification
做者信息:中科大自動化所 Zhou ACL 2016
模型名稱:BLSTM + ATT
論文內容:簡單有效。使用BLSTM對句子建模,並使用word級別的attention機制。
原文地址:http://www.aclweb.org/anthology/P16-2034
論文名稱:Neural Relation Extraction with Selective Attention over Instances
做者信息:清華 Lin et al. 2016
模型名稱:CNN+ATT / PCNN+ATT
論文內容:使用CNN/PCNN做爲sentence encoder, 並使用句子級別的attention機制。近幾年標杆的存在,國內外新論文都要把它拖出來吊打一遍。
原文地址:http://www.aclweb.org/anthology/P16-1200
論文名稱:NUERAL RELATION EXTRACTION WITH MULTI-LINGUAL ATTENTION
做者信息:清華 Lin et al. 2017
模型簡稱:MNRE
論文內容:頗有意思也頗有用。單語言語料的信息若是不夠,就要用到多語言的語料。NLP任務中多語言之間的信息利用是今年研究比較多的一個。不過實際作起來難度是比較大的,最主要緣由仍是數據比較難以採集。本文使用
(P)CNN+ATT(上面那篇)擴展到多語言語料庫上,利用多語言之間的信息 https://zhuanlan.zhihu.com/p/29970617。性能提高比較客觀。應該也只有一些大公司纔有能力將這種算法落地使用。
論文名稱:Deep Residual Learning forWeakly-Supervised Relation Extraction
做者信息:Yi Yao Huang 臺灣國立大學 EMNLP 2017
模型名稱:ResCNN-9
論文內容:本文使用淺層(9)ResNet做爲sentence encoder, 在不使用piecewise pooling 或者attention機制的狀況下,性能和PCNN+ATT 接近。這就證實使用更fancy的CNN網絡做爲sentence encoder徹底是有可能有用的。不光光能夠在本任務中驗證,其餘的NLP任務一樣可使用。本文在github上有源代碼,強烈推薦。我寫的知乎筆記: https://zhuanlan.zhihu.com/p/31689694。 順帶一提的是,本文的工程實現還存在能夠改進的地方。
論文名稱:Overcoming Limited Supervision in Relation Extraction: A Pattern-enhanced Distributional Representation Approach
做者信息:ACM 2016
模型名稱:REPEL
論文內容:這篇文章思路比較有意思,很是值得一看。沒有用深度學習,而是兩個樸素的模型互相迭代,運用了半監督學習的思想。不過沒有代碼,若是實驗結果能夠復現,那麼意義仍是比較大的。https://zhuanlan.zhihu.com/p/32364723。
論文名稱:Cross-Sentence N-ary Relation Extraction with Graph LSTMs
做者信息:ACL 2017
模型名稱:Graph LSTM
論文內容:這個就是提出了一種圖形LSTM結構,本質上仍是利用了SDP等能夠利用的圖形信息。別的部分沒有什麼特別的。https://zhuanlan.zhihu.com/p/32541447
論文名稱:Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions
做者信息:Ji 2017 中科院自動化所 AAAI 2017
模型名稱:APCNNs(PCNN + ATT) + D
論文內容:引入實體描述信息,我的認爲沒什麼亮點,引入外部信息當然有效,可是不少時候實際問題中遇到的實體大可能是找不到實體描述信息的。 https://zhuanlan.zhihu.com/p/35051652
論文名稱:Large Scaled Relation Extraction with Reinforcement Learning
做者信息: Zeng 2018 中科院自動化所 AAAI 2018
模型名稱:PE + REINF
論文內容:提出強化學習用於RE任務,我的感受挺牽強的,效果也很通常。文中提到的PE不知道是否是我代碼寫錯了,試出來就是沒什麼用。 https://zhuanlan.zhihu.com/p/34811735
論文名稱: Learning with Noise: Enhance Distantly Supervised Relation Extraction with Dynamic Transition Matrix
做者信息: ACL 2017 Luo 北大
模型名稱:CNN + ATT + TM (這名字是我給起的)
論文內容:文章出發點很好。既然遠程監督數據集最大的問題在於噪音很是之多,那麼對於噪音進行描述則是很是有意義的。本文創新點有兩個。第一個是,咱們讓模型先學習從輸入空間到真實標籤空間的映射,再用一個轉移矩陣學習從真實標籤空間到數據集標籤空間的錯誤轉移機率矩陣。這不是本文提出的方法,本文在此基礎之上進行改進,將該矩陣從全局共享轉化爲跟輸入相關的矩陣,也就是文中提到的動態轉移矩陣,性能有提高。第二個出創新點在於使用了課程學習。課程學習的出發點在於模型若是先學習簡單樣本再學習難樣本,這樣一種先易後難的學習方式比隨機順序學習更好。最終在NYT數據集上有小小的提高,可是本文的思路很是值得借鑑。可只惋惜沒有源代碼。建議讀博的大佬們嘗試一下,我以爲很好玩。 https://zhuanlan.zhihu.com/p/36527644
論文名稱: Effectively Combining RNN and CNN for Relation Classification and Extraction
做者信息: SemEval 2018 四項任務 三項第一,一項第二 ETH Zurich
模型名稱:做者沒起名字
論文內容:這是一篇打比賽的文章,工程性的內容不少。核心技巧在於使用CNN, RNN模型集成。文中還提到了多種方法,不擇手段提高最終模型的性能。雖然該模型訓練速度能夠說是很是慢了,可是仍是有不少地方能夠借鑑。 https://zhuanlan.zhihu.com/p/35845948
以上介紹的是關係抽取,創建在NER的基礎上,接下來討論joint模型。聯合抽取我的認爲是比較難作的一個任務。
論文名稱:CoType: Joint Extraction of Typed Entities and Relations with Knowledge Bases
做者信息:Ren2017
模型名稱:CoType
論文內容:坦白地說沒有太看懂。才疏學淺。 https://zhuanlan.zhihu.com/p/23635696
github有源代碼: https://github.com/shanzhenren/CoType
論文名稱: Joint Extractions of Entities and Relations Based on a Novel Tagging Scheme
做者信息: Zheng 2017 中科院自動化所
模型名稱:LSTM-CRF, LSTM-LSTM,LSTM-LSTM-Bias
論文內容:把關係抽取內容轉換成序列標註任務 https://zhuanlan.zhihu.com/p/31003123
我改行作圖像相關的東西去了。本文應該不會再更新了!
再見RE,再見KG!!!