1. 前言
今天介紹一篇2017年的論文《Distant Supervision for Relation Extraction with Sentence-level Attention and Entity Deions》,這篇論文主要是介紹經過句子層面的注意力和實體知識來提升遠程監督抽取關係的準確度。php
2. 原理介紹
關係抽取的遠程監督方法經過知識庫與非結構化文本對其的方式,自動標註數據,解決人工標註的問題。可是,現有方法存在沒法選擇有效的句子、缺乏實體知識的缺陷。網絡
- 沒法選擇有效的句子是指模型沒法判斷關係實例對應的句子集(bag)中哪一個句子是與關係相關的,在建模時能會將不是表達某種關係的句子當作表達這種關係的句子,或者將表達某種關係的句子當作不表達這種關係的句子,從而引入噪聲數據。
- 缺乏實體知識,例如「[Nevada] then sanctioned the sport , and the U.F.C. held its first show in [Las Vegas] in September 2001. 」若是不知道 Nevada 和 Las Vegas 是兩座城市,則很難判斷他們知識是地理位置上的包含關係。
論文的主要方法分爲三部分:句子特徵提取、實體表示和bag特徵提取。學習
2.1 句子特徵提取
句子特徵提取結構以下:spa
- 使用詞向量和位置向量相鏈接做爲單詞表示,句子的詞表示序列做爲模型的輸入;
- 使用卷積神經網絡對輸入層提取特徵,而後Piecewise Max-pooling,造成句子的特徵表示。
- Piecewise Max-pooling:傳統的max-pooling的做用是提取最重要的特徵,而Piecewise Max-pooling是把向量分爲幾段,而後分別提取每段的max特徵,方便捕捉更多的特徵信息,給後面微調提供支持。
2.2 實體表示
實體表示在詞向量的基礎上,使用實體描述信息對向量表示進行調整,造成最終的實體向量表示。最終的實體向量 = 實體表示詞向量 + 實體描述信息3d
模型主要思想是,使用CNN對實體的描述信息進行特徵提取,獲得的特徵向量做爲實體的特徵表示,模型的訓練目標是使得實體的詞向量表示和從描述信息獲得的實體特徵表示儘量接近。blog
2.3 bag特徵提取
bag特徵提取模型的關鍵在句子權重學習,在獲得bag中每一個句子的權重後,對bag中全部句子的特徵向量進行加權求和,獲得bag的特徵向量表示。get
bag特徵提取模型以下圖:it
模型中用到了相似TransE的實體關係表示的思想:\(e_1+r=e_2\)。使用\(r=e_2-e_1\)做爲實體間關係信息的表達,與句子特徵向量相拼接,進行後續的權重學習。io
- 使用bag中的全部句子的特徵向量表示,結合\(r=e_2-e_1\)方式獲得的關係表示,做爲模型的輸入。
- 利用attention機制學習權重矩陣,獲得每一個句子的權重。
- 對句子進行加權求和,獲得bag的最終表示。
3. 總結
這篇論文在當時提時是SOTA的表現。總結下論文的主要內容。class
- 引入句子層面的注意力模型來選擇一個bag中的多個有用的句子,從而充分利用bag中的有用信息。
- 使用實體描述來爲關係預測和實體表達提供背景信息。