基於神經網絡的實體識別和關係抽取聯合學習

基於神經網絡的實體識別和關係抽取聯合學習算法

   聯合學習(Joint Learning)一詞並非一個最近纔出現的術語,在天然語言處理領域,很早就有研究者使用基於傳統機器學習的聯合模型(Joint Model)來對一些有着密切聯繫的天然語言處理任務進行聯合學習。例如實體識別和實體標準化聯合學習,分詞和詞性標註聯合學習等等。最近,研究者們在基於神經網絡方法上進行實體識別和關係抽取聯合學習,我閱讀了一些相關工做,在此和你們一塊兒分享學習。(本文中引用了一些論文做者Suncong ZhengPPT報告)網絡

1 引言

   本文關注的任務是從無結構的文本中抽取實體以及實體之間的關係(實體1-關係-實體2,三元組),這裏的關係是咱們預約義好的關係類型。例以下圖,機器學習

   目前有兩大類方法,一種是使用流水線的方法(Pipelined Method)進行抽取:輸入一個句子,首先進行命名實體識別,而後對識別出來的實體進行兩兩組合,再進行關係分類,最後把存在實體關係的三元組做爲輸入。流水線的方法存在的缺點有:1)錯誤傳播,實體識別模塊的錯誤會影響到下面的關係分類性能;2)忽視了兩個子任務之間存在的關係,例如圖中的例子,若是存在Country-President關係,那麼咱們能夠知道前一個實體必然屬於Location類型,後一個實體屬於Person類型,流水線的方法無法利用這樣的信息。3)產生了不必的冗餘信息,因爲對識別出來的實體進行兩兩配對,而後再進行關係分類,那些沒有關係的實體對就會帶來多餘信息,提高錯誤率。ide

   理想的聯合學習應該以下圖:輸入一個句子,經過實體識別和關係抽取聯合模型,直接獲得有關係的實體三元組。這種能夠克服上面流水線方法的缺點,可是可能會有更復雜的結構。函數

2 聯合學習

   這裏我主要關注的基於神經網絡方法的聯合學習,我把目前的工做主要分爲兩大類:1)參數共享(Parameter Sharing)和2)標註策略(Tagging Scheme)。主要涉及到下面一些相關工做。性能

2.1 參數共享

   論文《Joint Entity and Relation Extraction Based on A Hybrid Neural Network》,Zheng等人利用共享神經網絡底層表達來進行聯合學習。具體的,對於輸入句子經過共用的word embedding層,而後接雙向的LSTM層來對輸入進行編碼。而後分別使用一個LSTM來進行命名實體識別(NER)和一個CNN來進行關係分類(RC)。相比如今主流的NER模型BiLSTM-CRF模型,這裏將前一個預測標籤進行了embedding再傳入到當前解碼中來代替CRF層解決NER中的標籤依賴問題。在進行關係分類的時候,須要先根據NER預測的結果對實體進行配對,而後將實體之間的文本使用一個CNN進行關係分類。因此該模型主要是經過底層的模型參數共享,在訓練時兩個任務都會經過後向傳播算法來更新共享參數來實現兩個子任務之間的依賴。學習

   論文《End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures》也是相似的思想,經過參數共享來聯合學習。只是他們在NERRC的解碼模型上有所區別。這篇論文Miwa等人一樣是經過參數共享,NER使用的是一個NN進行解碼,在RC上加入了依存信息,根據依存樹最短路徑使用一個BiLSTM來進行關係分類。編碼

   根據這兩篇論文的實驗,使用參數共享來進行聯合學習比流水線的方法得到了更好的結果在他們的任務上F值約提高了1%,是一種簡單通用的方法。論文《A Neural Joint Model for Entity and Relation Extraction from Biomedical Text》將一樣的思想用到了生物醫學文本中的實體關係抽取任務上。spa

2.2 標註策略

   可是咱們能夠看到,參數共享的方法其實仍是有兩個子任務,只是這兩個子任務之間經過參數共享有了交互。並且在訓練的時候仍是須要先進行NER,再根據NER的預測信息進行兩兩匹配來進行關係分類。仍然會產生沒有關係的實體對這種冗餘信息。出於這樣的動機,Zheng等人在論文《Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme》中提出了一種新的標註策略來進行關係抽取,該論文發表在2017 ACL上,併入選了Outstanding Paper3d

   他們經過提出了一種新的標註策略把原來涉及到序列標註任務和分類任務的關係抽取徹底變成了一個序列標註問題。而後經過一個端對端的神經網絡模型直接獲得關係實體三元組。

   他們提出的這種新的標註策略主要由下圖中三部分組成:1)實體中詞的位置信息{B(實體開始),I(實體內部),E(實體結尾),S(單個實體)}2)關係類型信息{根據預先定義的關係類型進行編碼}3)實體角色信息{1(實體1),2(實體2}。注意,這裏只要不是實體關係三元組內的詞所有標籤都爲"O"

   根據標籤序列,將一樣關係類型的實體合併成一個三元組做爲最後的結果,若是一個句子包含一個以上同一類型的關係,那麼就採用就近原則來進行配對。目前這套標籤並不支持實體關係重疊的狀況。

   而後該任務就變成了一個序列標註問題,總體模型以下圖。首先使用了一個BiLSTM來進行編碼,而後使用了在參數共享中提到的LSTM來進行解碼。

   和經典模型不一樣的地方在於他們使用了一個帶偏置的目標函數。當標籤爲"O"時,就是正常的目標函數,當標籤不是"O"時,即涉及到了關係實體標籤,則經過α來增大標籤的影響。實驗結果代表,這個帶偏置的目標函數可以更準確的預測實體關係對。

3 總結

   基於神經網絡的實體識別和關係抽取聯合學習主要由兩類方法。其中參數共享的方法簡單易實現,在多任務學習中有着普遍的應用。Zheng等人提出的新的標註策略,雖然目前還存在一些問題(例如沒法識別重疊實體關係),可是給出了一種新的思路,真正的作到了兩個子任務合併成了一個序列標註問題,在這套標註策略上也能夠進行更多的改進和發展來進一步完善端到端的關係抽取任務。

 

參考文獻

[1] S. Zheng, Y. Hao, D. Lu, H. Bao, J. Xu, H. Hao, et al., Joint Entity and Relation Extraction Based on A Hybrid Neural Network, Neurocomputing. (2017) 1–8.

[2] M. Miwa, M. Bansal, End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures, ACL, (2016).

[3] F. Li, M. Zhang, G. Fu, D. Ji, A Neural Joint Model for Entity and Relation Extraction from Biomedical Text, BMC Bioinformatics. 18 (2017).

[4] S. Zheng, F. Wang, H. Bao, Y. Hao, P. Zhou, B. Xu, Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme, Acl. (2017).

相關文章
相關標籤/搜索