論文筆記【四】Semi-supervised Word Sense Disambiguation with Neural Models

時間 2019-11-11

標籤論文筆記 semi supervised word sense disambiguation neural models 欄目 Microsoft Office 简体版

原文原文鏈接

基於神經模型的半監督詞義消歧web

Dayu Yuan Julian Richardson Ryan Doherty Colin Evans Eric Altendorf算法

Google, Mountain View CA, USA數據庫

摘要bootstrap

肯定文本中詞語的意圖 - 詞義消歧（WSD） - 是天然語言處理中長期存在的問題。最近，研究人員使用從神經網絡語言模型中提取的單詞向量做爲WSD算法的特徵，顯示了有但願的結果。可是，文本中每一個單詞的單詞向量的簡單平均或串聯會丟失文本的順序和句法信息。在本文中，咱們使用序列學習神經網絡LSTM研究WSD，以更好地捕獲文本的順序和句法模式。爲了減輕全詞WSD中訓練數據的缺少，咱們在半監督標籤傳播分類器中使用相同的LSTM。咱們展現了最早進的結果，尤爲是動詞。網絡

1 介紹

詞義消歧（WSD）是天然語言處理（NLP）中一個長期存在的問題，具備普遍的應用。已經爲WSD研究了監督的，無監督的和基於知識的方法（Navigli，2009）。然而，對於全詞WSD，語料庫中的全部單詞都須要用單詞意義進行註釋，事實證實，擊敗強基線極具挑戰性，強基線老是在不考慮上下文的狀況下分配最多見的單詞意義（Pradhan 2007a） ; Navigli，2009; Navigli 2013; Moro和Navigli，2015）。鑑於已發佈的有監督的WSD系統在提供特定單詞的有效訓練數據時表現良好（Zhong和Ng，2010），彷佛缺少足夠的大型詞彙標記訓練數據是核心問題。app

利用未標記數據的一種方法是在數據上訓練神經網絡語言模型（NNLM）。從這樣的NNLM（一般是Word2Vec（Mikolov等人，2013））提取的詞向量能夠做爲特徵結合到WSD算法中。 Iacobacci等人（2016年）代表，這能夠大大提升WSD的性能，事實上，僅使用單詞嵌入就能夠得到競爭性能。性能

在本文中，咱們描述了兩種新穎的WSD算法。第一種是基於長期短時間記憶（LSTM）（Hochreiter和Schmidhuber，1997）。因爲該模型在分類時可以考慮單詞順序，所以其性能明顯優於基於連續詞袋模型（Word2vec）的算法（Mikolov等，2013; Iacobacci等，2016），尤爲是動詞。學習

而後，咱們提出了一種使用標籤傳播的半監督算法（Talukdar和Crammer，2009; Ravi和Diao，2016），根據它們與標記的句子的類似性來標記未標記的句子。這使咱們可以更好地估計詞義的分佈，得到更準確的決策邊界和更高的分類準確度。測試

經過使用具備標籤傳播的LSTM語言模型實現了最佳性能。咱們的算法在許多SemEval全字任務中實現了最早進的性能。它還優於最多見的詞義和Word2Vec基線10％（詳見第5.2節）。優化

組織：咱們回顧了第2節中的相關工做。咱們在第3節介紹了監督的WSD算法，在第4節介紹了半監督的WSD算法。實驗結果在第5節中討論。咱們在第6節中提供了進一步的討論和將來的工做。

2相關工做

大量詞彙資源的開發，如WordNet（Fellbaum，1998）和BabelNet（Navigli和Ponzetto，2012），已經使基於知識的算法在全詞預測任務中顯示出有但願的結果（Ponzetto和Navigli，2010; Navigli等，2013; Moro和Navigli，2015）。基於監督學習的WSD算法一般被認爲比基於知識的WSD算法表現更好，但他們須要大量訓練集才能表現良好（Pradhan等，2007a; Navigli等） al，2007; Navigli，2009; Zhong和Ng，2010）。得到大型培訓集的代價很大。在本文中，咱們代表，監督的WSD算法能夠很好地執行每一個含義上約20個訓練樣例。

在過去幾年中，使用神經網絡學習詞向量（Mikolov等，2013; Levy和Goldberg，2014），構建語言模型（Mikolov等，2011），進行情感分析（Socher）取得了很大進展。等，2013），機器翻譯（Sutskever等，2014）和許多其餘NLP應用。

在WSD中使用詞向量已經研究了許多不一樣的方法。有一些共同的元素：

l 上下文嵌入 給定一個文本窗口wn-k，...，wn，...，wn + k圍繞焦點詞wn（其標籤在例句中是已知的或在分類的狀況下肯定），計算上下文向量做爲單詞wi，i = n的詞向量的串聯或加權和。在二者中都使用了各類上下文向量（Chen等，2014）和（Iacobacci等，2016）。

l 含義向量針對詞義庫（例如Word Net）中的每一個單詞含義計算詞向量。在（Rothe和Sch¨utze，2015）中，導出了關於詞義向量的方程，其中嵌入了未分配詞。求解方程以計算詞義嵌入。在（Chen等人，2014）中，首先計算詞義向量做爲每一個含義上的WordNet註釋中的單詞嵌入的加權和。這些用於初始自舉WSD階段，而後由在此引導數據上訓練的神經網絡進行細化。

l 嵌入做爲SVM特徵上下文嵌入（Iacobacci等人，2016; Taghipour和Ng，2015b），或特徵是經過將上下文嵌入與有意嵌入相結合而計算獲得的（Rothe和Sch¨utze，2015），能夠用做受監督的WSD系統中的附加特徵，例如，基於SVM的IMS（Zhong和Ng，2010）。事實上，Iacobacci等人（2016）發現使用嵌入做爲IMS中惟一的特徵能夠提供有競爭力的WSD性能。

l 最近鄰分類器 執行分類的另外一種方式是找到與其詞義向量最接近的分類上下文向量的詞義，如經過餘弦類似性測量的獲得。例如，這用於（Chen等人，2014）的自舉階段。

l 再培訓嵌入 前饋神經網絡可用於聯合執行WSD並調整嵌入（Chen等，2014; Taghipour和Ng，2015b）。

在咱們的工做中，咱們從一個基線分類器開始，該分類器使用Word2Vec（Mikolov等，2013）在1000億字新聞語料庫上訓練的1000維嵌入。詞彙由最多見的1,000,000個單詞組成，沒有詞形還原或案例歸一化。經過求平均值來計算詞義嵌入，該平均值是由已經用該意義標記的句子的上下文嵌入獲得的。爲了對上下文中的單詞進行分類，咱們將分配與上下文嵌入具備最大餘弦類似度的詞義向量。當SemCor用做標記句子的來源時，該分類器具備與（Iacobacci等人，2016）中的最佳分類器相似的性能。使用詞袋模型訓練Word2Vec嵌入，即不考慮訓練上下文中的單詞順序，而且在分類上下文中也不考慮單詞順序。在第3節中，咱們展現了使用更具表現力的語言模型，該模型考慮了詞序，產生了顯着的改進。

半監督學習之前已成功應用於詞義消歧。在（Yarowsky，1995）中，bootstrapping用於學習高精度WSD分類器。從一小組標記的示例中學習了低召回率分類器，而後用來自未標記語料庫的那些句子擴展標記組，分類器能夠高可信度地標記這些語句。而後從新訓練分類器，而且該迭代訓練過程繼續收斂。其餘啓發式方法有助於維持自舉過程的穩定性。該方法在一個小數據集上進行評估。

在（Niu等人，2005）中，提出了用於詞義消歧的標籤傳播算法，並將其與自舉和SVM監督分類器進行比較。標籤傳播能夠實現更好的性能，由於它分配標籤以優化全局目標，而自舉則根據示例的本地類似性傳播標籤。

在第4節中，咱們描述了咱們使用標籤傳播來改進最近鄰居的分類。

3使用LSTM的監督WSD

具備長短時間記憶（LSTM）單元的神經網絡（Hochreiter和Schmidhuber，1997）製做了考慮詞序的良好語言模型（Sundermeyer等，2012）。咱們訓練LSTM語言模型來預測句子中保留的單詞。如圖1所示，咱們首先用特殊符號$替換保留的單詞，而後，在使用句子中剩餘的單詞後，將h維隱藏層投影到一個p維上下文層，最後用softmax預測出來單詞。 默認狀況下，LSTM模型具備2048個隱藏單元，512維上下文層和512維詞向量。咱們還研究了其餘設置，詳見5.2.2節。咱們用大約1000億個標記的新聞語料庫訓練LSTM，詞彙量爲1,000,000個單詞。詞彙表中的詞彙既不是詞形也不是歸一化。

咱們的LSTM模型與Kgebck和Salomonsson的模型不一樣（K˚ageb¨ack和Salomonsson，2016）。咱們訓練LSTM語言模型，該模型根據上下文環境預測一個突出的單詞，並將大量未標記的文本做爲訓練數據。巨大的訓練數據集使咱們可以訓練一個高容量模型（2048個隱藏單元，512維嵌入），實現了高精度而不會過分擬合。在咱們的實驗中，這種定向LSTM模型比雙向LSTM更快更容易訓練，特別是考慮到咱們龐大的訓練數據集。 Kgebck和Salomonsson的LSTM直接預測了詞的含義，而且用有限數量的詞義標記示例訓練它。儘管使用正則化和dropout來避免過分擬合訓練數據，但雙向LSTM很小，只有74 + 74個神經元和100維詞向量（K˚ageb¨ack和Salomonsson，2016）。由於咱們的LSTM一般適用於任何單詞，因此它能夠在全詞WSD任務上實現高性能（詳見第5節），這是本文的重點。 Kgebck和Salomonsson的LSTM僅針對Sem Eval 2和3的詞彙樣本WSD任務進行評估（K˚ageb¨ack和Salomonsson，2016）。

圖1：LSTM：用特殊符號$替換焦點詞w3，並在句子末尾預測w3。

LSTM的表現能夠經過其預測來直觀獲得。表1顯示了LSTM語言模型在包含各類「股票」意義的句子中對「股票」一詞預測的前10個單詞。

在咱們的初始實驗中，咱們經過它們的預測詞之間的重疊來計算兩個上下文之間的類似性。例如表1，查詢的最高預測與「sense＃1」的LSTM預測重疊最多 - 咱們預測'sense＃1'是正確的意義。這個預測雖然易於解釋，但它只是在預測所保留的單詞時對LSTM內部狀態的離散近似。所以，咱們直接使用LSTM的上下文層來計算預測做爲上下文的表示（參見圖1）。給定從LSTM提取的上下文向量，咱們的監督WSD算法經過找到與上下文向量具備最大餘弦類似性的有義向量來對上下文中的單詞進行分類（圖2a）。咱們經過對具備相贊成義的全部訓練句子的上下文向量求平均來找到有義向量。咱們在少數狀況下觀察到上下文向量遠離保持字的嵌入，特別是當輸入句子不提供信息時。例如，當咱們保留「工做」時，LSTM語言模型將預測輸入句子「我在[工做]睡着了」的「夜晚」。目前，咱們將上述案例視爲異常值。咱們但願探索替代解決方案，例如，在進一步的工做中迫使模型預測接近所保留的單詞的一個語義向量的單詞。從SemEval全詞任務和表6中能夠看出，該LSTM模型具備比Word2Vec模型明顯更好的性能。

4半監督的WSD

（b）帶有標籤傳播的半監督WSD

圖2：WSD分類器。填充節點表示標記的句子。未填充的節點表示未標記的句子。

第3節中描述的非參數最近鄰居算法具備如下缺點：

l 對於每一個語義簇它假設爲球形，因爲示例數量有限，沒法準確地對決策邊界進行建模。

l 它沒有訓練數據，也沒有先前語義的模型，忽略了極其有用的潛在標記。

爲了克服這些缺點，咱們提出了一種半監督方法，該方法利用來自網絡的大量未標記的句子來加強標記的例句。而後將詞義標籤從標記的句子傳播到未標記的句子。添加大量未標記的句子使得不一樣語義之間的決策邊界變得更。

標籤傳播圖由（a）具備多個標記種子節點的頂點和（b）無向加權邊組成。標籤傳播（LP）（Talukdar和Crammer，2009）迭代計算圖頂點上的標籤分佈，來最小化如下的加權組合：

l 種子標籤與其計算標籤分佈之間的差別。

l 鏈接頂點的標籤分佈之間的不一致。

l 一個正則化項，它對與先前不一樣的分佈（默認狀況下，均勻分佈）是不利的。

咱們爲每一個詞目構建一個圖形，其中帶有標記頂點的標記例句，以及包含詞的句子的未標記頂點，從一些附加語料庫中提取。類似句子的頂點（基於下面討論的標準）經過邊鏈接，該邊的權重是各個上下文向量之間的餘弦類似度，使用LSTM語言模型。爲了對詞的出現進行分類，咱們爲新句子建立了一個額外的頂點，並運行LP將詞義標籤從種子頂點傳播到未標記的頂點。

圖2（b）說明了圖形配置。空間接近度表示到每一個頂點的句子的類似性，而且每一個節點的形狀表示單詞詞義。填充節點表示具備已知單詞意義的種子節點。未填充的節點表示沒有語義標籤的句子，而？表示咱們想要分類的單詞。

邊太多，語義標籤傳播得太遠，精度低。語義標籤太少，傳播不充分，召回率低。咱們發現當咱們經過類似性對頂點對進行排序並將這些組合鏈接在95%以上時，該圖具備關於常見詞義的正確密度。這可能使得少見的詞義被不多的鏈接到，所以咱們另外添加邊以確保每一個頂點鏈接到至少10個其餘頂點。咱們的實驗（表9）顯示該設置在WSD上實現了良好的性能，而且當85%到98%之間時性能穩定。因爲它須要針對每一個分類運行LP，所以與最近鄰居算法相比算法較慢。

5實驗

咱們使用WordNet做爲詞義庫，在標準SemEval全字任務上評估帶有和不帶標籤傳播的LSTM算法。咱們提出的算法在許多SemEval全字WSD任務上實現了最早進的性能。爲了評估訓練語料庫大小和語言模型能力的影響，咱們還使用新牛津美國詞典（NOAD）詞義庫與SemCor（Miller等，1993）或MASC來評估咱們的算法。

5.1語義評測任務

在本節中，咱們研究了咱們的分類器在Senseval2（Edmonds和Cotton，2001），Senseval3（Snyder和Palmer，2004），SemEval-2007（Pradhan等，2007b），SemEval-2013 Task12（Navigli等， 2013）和SemEval-2015任務13（Moro和Navigli，2015）之上的性能。咱們將研究重點放在全詞WSD任務上。爲了與相關工做進行公平比較，分類器在對全詞（多義詞和單詞）上進行評估。

如下相關工做，咱們使用SemCor或OMSTI（Taghipour和Ng，2015a）進行訓練。在咱們的LP分類器中，每一個詞的未標記數據包含1000個句子，其中包含從Web中隨機抽樣的詞目，或包含詞目的全部OMSTI句子（無標籤）。

表2：SemEval全詞任務的F1得分。 T：SemCor表明用SemCor訓練的模型。 U：OMSTI表明使用OMSTI做爲半監督WSD中的未標記句子。 IMS + Word2Vec分數來自（Iacobacci等，2016）

表2顯示了Sem-Eval結果。除了Sem-Eval 2013以外，咱們提出的算法實現了最高的全詞F1分數。Weissenborn等人（2015）僅消除了名詞的歧義，而且它在Sem-Eval 2013上的表現優於咱們的算法4％，但在Senseval-3和SemEval-7任務的F1分數比咱們的算法低6％以上，排名落後於咱們的算法。。Unified WSD（Chen et al，2014）在名詞（Sem-Eval-7 Coarse）上得到了最高的F1分數，但咱們的算法在其餘詞性標籤上的表現優於Unified WSD。

設置爲了公平地比較Word2Vec和LSTM，咱們不使用預先訓練的詞向量（Iacobacci等，2016），而是在一個1000億字的新聞語料庫上訓練Word2Vec和LSTM模型，該語料庫包含了一個最多見的1,000,000詞的詞彙表。咱們自我訓練的詞向量具備與預訓練的詞向量類似的性能，如表2所示.Word2Vec詞向量爲1024維。LSTM模型具備2048個隱藏單元，輸入是512維詞向量。咱們經過使用Adagrad（Duchi等人，2011）最小化採樣的softmax損失來訓練LSTM模型（Jean等人，2014）。學習率爲0.1。咱們嘗試了其餘學習率，而且在訓練收斂後沒有觀察到顯著的性能差別。咱們也以與（Mikolov等，2013）相同的方式對頻繁術語進行下采樣。

Word2Vec vectors Vs. LSTM 爲了更好地比較LSTM與詞向量，咱們還使用Word2Vec詞向量和SemCor示例句子構建了一個最近鄰分類器Word2Vec（T：Sem Cor）。它的表現相似於IMS + Word2Vec（T：SemCor），這是一種基於SVM的分類器（Iacobacci等，2016）。表2顯示LSTM分類器徹底優於Word2Vec分類器。

SemCor Vs. OMSTI 與（Iacobacci等，2016）觀察到的結果相反，使用OMSTI訓練的LSTM分類器比使用SemCor訓練的LSTM分類器表現更差。彷佛OMSTI訓練數據集的較大尺寸被其自動生成的標籤中存在的噪聲所抵消。雖然在（Iacobacci等人，2016）研究的SVM分類器可能可以學習應對這種噪聲的模型，可是咱們的樸素最近鄰分類器沒有學習模型而且對噪聲標籤處理得不太好。

標籤傳播 咱們使用DIST EXPANDER（Ravi和Diao，2016）的實現。咱們使用SemCor或OMSTI做爲標記數據集和OMSTI或來自web引文的1000個隨機句子做爲未標記數據來測試標籤傳播算法。該算法對不一樣的數據集執行相似的操做。

表3顯示了Sem-Eval 2015的結果。具備LSTM語言模型的LSTM LP分類器在名詞和副詞以及總體F1上得到了最高分。 LSTM分類器在動詞上具備最高的F1。

表3：Sem Eval-2015英語數據集的F1分數。 BFS基線使用Babel Net第一感。

5.2 NOAD Eval

許多字典詞和詞義在SemCor或OSTMI中沒有例子，當這些語料庫用做訓練數據時，致使全部單詞WSD的損失。上述SemEval分數不區分因爲缺乏某些標籤的訓練數據或不許確的分類器而致使的錯誤。爲了更好地研究所提出的算法，咱們使用新牛津美國詞典（NOAD）（Stevenson和Lindberg，2010）訓練分類器，其中每一個詞義都有例句。

5.2.1 Word Sense Inventory

NOAD專一於美國英語，以牛津英語詞典（ODE）爲基礎（Stevenson，2010）。它以與ODE相同的方式區分粗（核）和細粒（子）詞義。先前使用ODE進行的研究（Navigli，2006; Navigli等，2007）代表，ODE庫引發的粗粒度詞義可解決WordNet的細粒度庫存問題，而且庫存對於詞義消歧頗有用。

對於咱們的實驗，咱們使用NOAD的核心意義，咱們還使用由牛津大學出版社提供的語義英語語言數據庫（SELD）中的詞典編纂者例句。爲了評估性能，咱們用NOAD詞義手動註釋了英語SemCor語料庫和MASC語料庫的全部單詞。表4顯示了NOAD / SELD（如下稱爲NOAD），SemCor和MASC中多義詞的總數（不止一個核心詞義）和每一個多義詞的平均語義數。 SemCor和MASC分別覆蓋了大約45％和62％的NOAD多義詞。

表4：NOAD，SemCor和MASC中的NOAD多重外le

表5給出了這些數據集的標記句子數。請注意，雖然NOAD的標註句子多於SemCor或MASC，但數據集中句子的每一個含義的平均數是類似的。這是由於NOAD標記了每一個詞義的句子，而SemCor（MASC）只涵蓋了詞彙和語義的子集（表4）。表5的最後一列顯示SemCor和MASC中的每一個帶註釋的單詞具備平均超過4個NOAD的核心意義。所以，隨機猜想的精度約爲1/4。

表5：每一個數據集中的示例數量和每一個示例的平均檢測計數。

在默認設置中，咱們使用NOAD示例句子做爲標記的訓練數據，並在SemCor和MASC上進行評估。咱們評估了語料庫中的全部多義詞。

5.2.2 LSTM classifier

咱們將算法與兩種基線算法進行比較：

最多見的詞義：計算詞義頻率（來自標記的語料庫）和標籤詞w與w的最多見詞義。

Word2Vec：具備Word2Vec詞向量的最近鄰分類器，其與SemEval任務（Iacobacci等，2016）中研究的尖端算法具備類似的性能。

表6比較了LSTM和基線算法的F1得分。LSTM在全部單詞上的表現優於Word2Vec超過10％，其中大部分收益來自動詞和副詞。結果代表，由LSTM很好地模擬了被Word2Vec忽略的句法信息，而句法信息對於區分動詞和副詞的詞義很重要。

表7：LSTM分類器的宏F1分數

表6：LSTM算法與基線比較的F1得分

改變訓練數據 默認狀況下，WSD分類器使用NOAD示例句子做爲訓練數據。咱們經過添加來自SemCor和MASC的標記句子來構建更大的訓練數據集，而且研究表6中的F1得分的變化。在全部詞性標籤和數據集中，在添加更多訓練數據以後F1得分增長。咱們經過使用SemCor（或MASC）做爲訓練數據（沒有NOAD示例）進一步測試咱們的算法。 SemCor（或MASC）訓練的分類器與NOAD訓練的分類器在F1分數上相同。然而，前者的宏觀F1得分遠遠低於後者，如表7所示，由於SemCor和MASC中罕見詞義和單詞的覆蓋範圍有限。

改變語言模型容量 在該實驗中，咱們經過改變隱藏單元的數量h，輸入嵌入的尺寸p和衡量F1來改變LSTM模型容量。圖3示出了F1與語言模型的容量之間的強正相關性。可是，較大的模型訓練的速度較慢而且使用更多內存。爲了平衡準確性和資源使用，咱們默認使用第二好的LSTM模型（h = 2048和p = 512）。

圖3：具備不一樣容量的LSTM模型的F1得分：h是隱藏單位的數量; p是嵌入維度。

5.2.3 Semi-supervised WSD

咱們在本小節中評估了咱們的半監督WSD分類器。咱們按照第4節中的描述構建圖並運行LP以將詞義標籤從種子頂點傳播到未標記的頂點。咱們經過比較eval節點上的預測標籤和黃金標籤來評估算法的性能。從表8中能夠看出，當使用Word2Vec語言模型時，LP沒有產生明顯的效益。咱們確實看到了顯着的改進，使用LP和LSTM語言模型，SemCor增長了6.3％，MASC增長了7.3％。咱們假設這是由於LP對圖距離的特性敏感。

表8：標籤傳播的F1得分

Change of seed data: 從表8中能夠看出，當訓練數據集是SemCor + NOAD或MASC + NOAD時，LP基本上提升了分類器F1。正如第4節所討論的那樣，改進可能來自對語義先驗的明確建模。經過增長每一個詞目的無標籤句子數量，咱們沒有看到太多的性能提高。

Change of graph density：默認狀況下，若是兩個節點的緊密度超過95％，咱們經過鏈接兩個節點來構建LP圖。咱們還強制每一個節點鏈接至少10個鄰居以防止孤立的節點。表9經過改變百分數閾值顯示了LP算法的性能。當百分位數介於85到98之間時，F1得分相對穩定，但當百分位數降至80時，F1得分會下降。此外，在一個更密集的圖上運行LP算法須要更長的時間。咱們在默認設置中選擇95百分位來得到高F1分數和運行時間。

表9：在具備不一樣圖密度的NOAD上訓練的LSTM LP的F1得分。

6 結論和將來工做

在本文中，咱們提出了兩種WSD算法，它們結合了（1）在大的未標記文本語料庫上訓練的LSTM神經網絡語言模型，以及（2）以例句形式標記的數據，以及（3）以附加句子的形式未標記數據。使用LSTM語言模型比基於Word2Vec詞向量的模型具備更好的性能。最好的性能是經過咱們的半監督WSD算法實現的，該算法構建了一個圖，其中包含標記例句，這些標記例句是用來自網絡的大量未標記句子擴充的，並經過在該圖中傳播語義標籤進行分類。

幾個未解答的問題代表將來的工做線。因爲咱們的通常方法適合結合任何語言模型，NNLM的進一步發展可能容許提升性能。咱們還但願更好地理解語言建模對此任務的侷限性：咱們指望有某些狀況 - 例如，在慣用語方面 – 這其中每一個詞的預測幾乎沒有信息。

咱們認爲咱們的模型應該推廣到英語之外的語言，但尚未探索過。字符級LSTM（Kim等人，2015）能夠提供詞法和變音符號的魯棒性，甚至對英語中的拼寫錯誤和沒有收錄到詞庫中的詞顯示有用。

咱們但願看到咱們對於多義詞的結果是否能夠經過整合全局(文檔)上下文和多個詞向量(黃et al .,2012)來提升。

最後,許多WSD系統對於分辨率要求命名實體與解決系統集成,由於表面形態每每重疊(莫羅et al .,2014;Navigli Ponzetto,2012)。這將須要語義庫對齊和模型重構工做,由於咱們目前使用非文檔級，主題或知識庫一致性特性。

咱們感謝咱們的同事和匿名評論者的深入的評論。