論文筆記【三】A Deep Dive into Word Sense Disambiguation with LSTM

時間 2019-11-11

標籤論文筆記 deep dive word sense disambiguation lstm 欄目 Microsoft Office 简体版

原文原文鏈接

深刻理解LSTM詞義消歧git

Minh Le，Marten Postma，Jacopo Urbani和Piek Vossengithub

阿姆斯特丹自由大學語言，文學和傳播系算法

阿姆斯特丹自由大學計算機科學系數據庫

摘要

基於LSTM的語言模型已經在Word Sense Disambiguation（WSD）中顯示出有效性。尤爲是Yuan等人提出的技術（2016）在幾個基準測試中返回了最早進的性能，可是沒有發佈訓練數據和源代碼。本文介紹了僅使用公開可用的數據集進行復制研究和分析該技術的結果（Giga Word,Sem Cor,OMSTI）和軟件（Tensor Flow）。咱們的研究代表，與Yuan等人（2016年）所暗示的方法相比，能夠用更少的數據得到相似的結果。詳細的分析揭示了這種方法的優勢和缺點。首先，添加更多未註釋的訓練數據頗有用，但收益遞減。其次，該模型能夠正確識別流行和不受歡迎的含義。最後，註釋數據集中的有限感覆蓋是一個主要限制。全部代碼和訓練有素的模型都是免費提供的。網絡

1介紹

Word Sense Disambiguation（WSD）是NLP社區中一項歷史悠久的任務（參見Navigli（2009）的一項調查），其目標是在Word Net等詞彙數據庫中以最恰當的含義註釋文本中的詞條（Fellbaum，1998））。已經提出了許多方法 - 更受歡迎的方法包括使用支持向量機（SVM）（Zhong和Ng，2010），SVM結合無監督訓練嵌入（Iacobacci等，2016; Rothe和Sch¨utze，2017）和基於圖的方法（Agirre等，2014; Weissenborn等，2015）。架構

近年來，人們對使用長期短時間記憶（LSTM）（Hochreiter和Schmidhuber，1997）進行WSD的興趣激增（Raganato等，2017b; Melamud等，2016）。這些方法的特色是高性能，簡單性以及從原始文本中提取大量信息的能力。其中表現最好的是Yuan等人的方法（2016），其中在具備1000億個標記的語料庫上訓練的LSTM語言模型與小的有義註釋的數據集相結合，以實現全部單詞WSD中的最新性能。app

儘管Yuan等人（2016年）得到的結果優於先前的最新技術，但所使用的數據集和構建的模型都不可用於社區。這是不幸的，由於這使得該技術的從新應用成爲一個非平凡的過程，而且阻礙了進一步研究以瞭解哪些限制能夠防止更高的精度。例如，這些多是算法性質或與輸入（尺寸或質量）有關，而更深刻的理解對於實現進一步改進相當重要。此外，未報告某些詳細信息，這可能會阻止其餘嘗試複製結果。框架

爲了解決這些問題，咱們從新實現了Yuan等人（2016）的方法，目標是：1）複製和提供代碼，訓練的模型和結果; 2）瞭解哪些是構成該方法的優勢和缺點的主要因素。雖然因爲原始數據不可用而沒法徹底複製，但咱們仍設法用其餘公共文本語料庫重現他們的方法，這使咱們可以對該技術的性能進行更深刻的調查。這項調查旨在瞭解WSD方法的靈敏度。用於訓練的未註釋數據（即原始文本）的數量，模型複雜性，方法對於最多見語義（MFS）的選擇偏好，以及識別使用較大的未註釋數據集沒法克服的限制。分佈式

所以，本文的貢獻有兩方面：一方面，咱們提出了一項複製研究，其結果是公開的，所以能夠由社區自由使用。請注意，在最近的一項工做中，明確提到缺少可用的模型是該技術與其餘競爭對手缺失比較的緣由（Raganato等，2017b，腳註10）。另外一方面，咱們提出其餘實驗，以更多地闡明這種和相似方法的價值。函數

咱們期待得出一些結論。首先，一個積極的結果是咱們可以重現袁等人的方法。（2016）並得到與最初發布的結果相似的結果。然而，令咱們驚訝的是，這些結果是使用18億標記（Gigaword）的小得多的語料庫得到的，這小於原始研究中使用的數據的2％。此外，咱們觀察到未註釋數據的數量很重要，但其大小與改進之間的關係不是線性的，這意味着須要指數級更多未註釋的數據才能提升性能。此外，咱們代表，正確語義分配的百分比更平衡，由於感知流行度，意味着系統對最多見意義（MFS）的偏見較弱，而且更好地識別流行和不受歡迎的含義。最後，咱們代表註釋數據集中的有限的語義範圍是一個主要限制，正如所獲得的模型沒有超過30％的意義所表示的事實所示，這些意義應該被考慮用於消除測試集的歧義。

2背景

當前的WSD系統能夠根據兩個維度進行分類：它們是否使用原始文本而沒有任何預先指定的含義（此後未註釋的數據），以及它們是否利用Word Net中的同義詞集之間的關係（之後的同義詞關係）。（IMS）（Zhong和Ng，2010; Taghipour和Ng，2015）是一個著名的最早進的系統，它不依賴於未註釋的數據，也不利用同義詞關係。該系統使用SVM僅使用帶註釋的數據做爲訓練證據來訓練每一個引理的分類器。

相比之下，基於圖形的WSD系統不使用（未）註釋數據，而是依賴於synset關係。系統UKB（Agirre等，2014）將Word Net表示爲一個圖，其中synset是節點，關係是邊。使用個性化PageRank算法初始化節點權重後，將根據上下文信息更新它們。而後，選擇具備最高權重的synset。 Babelfy（Moro等人，2014）和Weissenborn等人的系統（2015）都將整個輸入文檔表示爲具備同義詞關係做爲邊緣並共同消除名詞和動詞消歧的圖形。在Babelfy的狀況下，使用最密集的子圖啓發式來計算文本的高度一致性語義解釋。相反，Weissenborn等人（2015）將一組互補目標（包括感知機率和類型分類）組合在一塊兒以執行WSD。

許多系統都使用未註釋的數據和同義詞關係。 Tripodi和Pelillo（2017）以及Camacho-Collados等人（2016）利用來自未註釋數據的統計信息來權衡圖中節點的相關性，而後將其用於執行WSD。 Rothe和Sch¨utze（2017）使用單詞嵌入做爲起點，而後依靠詞彙資源中的形式約束來建立synset嵌入。

最近，使用未註釋數據但不考慮同義關係的WSD方法出現了激增。 Iacobacci等人（2016）提供了一個例子，他研究了字嵌入做爲WSD系統特徵的做用。使用四種方法（級聯，平均，分數衰減和指數衰減）使用單詞嵌入從句子上下文中提取特徵。而後將這些功能添加到IMS的默認特徵集中（Zhong和Ng，2010）。此外，Raganato等人（2017b）提出了許多端到端神經WSD架構。性能最佳的是基於具備註意力機制和兩個輔助損失函數（詞性和Word Net粗粒度語義標籤）的雙向長短時間記憶（BLSTM）。 Melamud等（2016）也利用未註釋的數據來訓練BLSTM。咱們在本文中考慮的Yuan等人（2016）的工做屬於最後一類。與Melamud等人（2016）不一樣，它使用了更多未註釋的數據，模型包含更多隱藏單元（2048對600），而且語義分配更加精細。咱們將在下一節中更詳細地描述這種方法。

3語言模型用於消岐

Yuan等人（2016）提出的方法經過使用與其含義相關聯的一個Word Net同義詞來註釋文本中的每一個引理來執行WSD。從廣義上講，消歧是經過如下方式完成的：1）從大型未註釋數據集構建語言模型; 2）使用更小的註釋數據集從該模型中提取語義嵌入; 3）依靠語義嵌入來對未知的句子中的引理進行預測。每一個操做以下所述。

構建語言模型。長期短時間記憶（LSTM）（Hochreiter和Schmidhuber，1997）是一種著名的遞歸神經網絡結構，已被證實在許多天然語言處理任務中都有效（Sutskever等，2014; Dyer等，2015; He）與之前的架構不一樣，LSTM配備了可控制信息流的可訓練門，容許神經網絡學習短程和長程依賴。

在Yuan等人（2016）的方法中，第一個操做包括構建LSTM語言模型以捕獲上下文中單詞的含義。他們使用具備h結點的單個隱藏層的LSTM網絡。給定句子s =（w1，w2，...，wn），它們用特殊標記$替換單詞wk（1≤k≤n）。該模型將該新句子做爲輸入，併產生維數p的上下文向量c （參見圖1）。

圖1：LSTM模型用於執行語言建模和計算上下文嵌入。在訓練時，添加softmax層，容許它預測省略的單詞; 在測試時，上下文嵌入用於最近鄰居或標籤傳播過程當中的WSD。

詞彙表V中的每一個單詞w與相同維度的嵌入φo（w）相關聯。訓練該模型以實現預測被省略的單詞，從而減少在句子的大集合D上的softmax損失。

在訓練模型以後，咱們可使用它來提取上下文嵌入，即圍繞給定單詞的句子的潛在數字表示。

計算詞義嵌入。LSTM網絡生成的模型旨在捕獲所說起的上下文中詞語的「含義」。爲了執行歧義消除，咱們須要從中提取出適合於詞義的表達。爲了這個目的，該方法依賴於另外一個語料庫，語料庫中每一個單詞用相應的語義註釋。

主要的直覺是，在相同詞義上使用的詞語也在彼此很是類似的上下文中被說起。這代表了一種計算語義嵌入的簡單方法。首先，調用LSTM模型來計算註釋數據集中一個語義每次出現的上下文向量。一旦計算了全部上下文向量，則將有義嵌入定義爲全部向量的平均值。例如，讓咱們假設感受馬2n（即馬的第二個含義做爲名詞）出如今兩個句子中：

（1）馬的移動到角落迫使了將軍。

（2）Karjakin後來爲一些失去的主教彌補了一些行動，交易車並贏得了黑馬。

在這種狀況下，該方法將用句子中的$替換該意義並將它們饋送到訓練的LSTM模型以計算兩個上下文向量c1和c2。而後將含義嵌入s horse2n計算爲：

針對註釋語料庫中出現的每一個詞義計算此過程。

平均技術來預測詞義。 在計算全部意義嵌入以後，該方法準備消除目標詞的歧義。該程序以下：

1.給定輸入句子和目標詞，它用$替換目標詞的出現，並使用LSTM模型來預測上下文向量ct。

2.目標詞的引理用於從Word Net中檢索候選同義詞s1,…,sn其中n是同義詞的數量。而後，該過程查找在上一步中計算出來的相應的詞義嵌入s1,…,sn。

3.該過程調用子例程來選擇上下文向量ct中的n個詞義中的一個。它使用餘弦做爲類似度函數選擇其向量最接近ct的詞義。

標籤傳播。袁等人（2016）認爲平均程序不是最理想的，緣由有兩個。首先，語義發生的分佈規律是未知的，而平均僅適用於球形聚類。其次，平均將每一個語義的出現的表示減小到單個向量，所以忽略了感知先驗。出於這個緣由，他們建議使用標籤傳播做爲推理的替代方法。標籤傳播（Zhu和Ghahramani，2002）是一種經典的半監督算法，已應用於WSD（Niu等，2005）和其餘NLP任務（Chen等，2006; Zhou，2011）。該過程涉及不只預測目標案例的語義，還預測從語料庫查詢的未註釋單詞的詞義。它將目標案例和未註釋的單詞表示爲向量空間中的點，並迭代地將分類標籤從目標類傳播到單詞。經過這種方式，它能夠用於構建非球形聚類並對頻繁的感官產生更大的影響。

總體算法。咱們實施的總體消除歧義程序以下：

1. Monosemous單詞義：首先，WSD算法檢查目標詞是不是單一的（即，只有一個synset）。在這種狀況下，消歧是微不足道的。

2.標籤傳播：若是啓用了標籤傳播，則它會檢查目標詞在註釋數據集中是否至少出現一次，在輔助未註釋數據集中至少出現一次。在這種狀況下，該過程應用標籤傳播技術來選擇候選synset。

3.平均：若是先前的策略不適用而且在帶註釋的數據集中至少出現一個目標引理，則咱們應用平均技術來選擇候選同義詞集。

4. MFS回退：若是目標引理未出如今帶註釋的數據集中，則系統會選擇最多見的同義詞集。

4復現研究：方法論

在咱們報告實驗結果以前，咱們會描述所使用的數據集，並提供有關咱們實施的一些細節。

訓練數據。原始出版物中使用的1000億令牌語料庫不公開。所以，對於LSTM模型的培訓，咱們使用英語Gigaword第五版（語言數據聯盟（LDC）目錄號LDC2011T07）。該語料庫包括來自四大新聞機構的410萬份文件中的18億份代幣。咱們將研究更大的語料庫留待未來工做。

對於詞義嵌入的訓練，咱們使用了Yuan等人使用的相同的兩個語料庫。（2016）：

1. SemCor（Miller等，1993）是一個包含大約240,000個有義註釋詞的語料庫。標記文件來自布朗語料庫（Francis and Kucera，1979），涵蓋各類類型。

2. OMSTI（Taghipour和Ng，2015）包含一百萬個語義標註，經過利用並行多聯合語料庫的英漢部分自動標記（Eisele和Chen，2010）。爲每一個WordNet意義手動建立了英語翻譯列表。若是英語單詞的中文翻譯與Word Net意義的手動策劃翻譯之一匹配，則選擇該意義。

實現。咱們使用Beautiful Soup HTML解析器從Gigaword語料庫中提取純文本。而後，咱們使用Spacy 1.8.2的英文模型進行句子邊界檢測和標記化。 LSTM模型使用Tensor Flow 1.2.1（Abadi等，2015）實施。咱們選擇Tensor Flow是由於它具備工業級質量，由於它能夠培養大型模型。

整個過程的主要計算瓶頸是LSTM模型的訓練。雖然咱們不使用1000億標記語料庫，但若是沒有正確優化，在Gigaword上訓練模型可能須要數年時間。爲了減小訓練時間，咱們假設批次中的全部（填充）句子具備相同的長度。在較小的模型（h = 100，p = 10）上測量，這種優化將速度提升了17％。其次，在Yuan等人的研究中，咱們使用了採樣的softmax損失函數（Jean et al。，2015）。第三，咱們將類似長度的句子組合在一塊兒，同時改變批次中的句子數量以充分利用GPU RAM。這些啓發式技術共同將訓練速度提升了42倍。

雖然袁等人建議使用標籤傳播的分佈式實現（Ravi和Diao，2015），咱們發現scikit-learn（Pedregosa等，2011）對於咱們的實驗來講足夠快。對於超參數調整，咱們使用OMSTI中的註釋（其中在測試時不使用）。在測量標籤傳播的一些變化的性能（scikit-learn實現：標籤傳播或標籤傳播;類似性度量：內部產品或徑向基函數與不一樣的γ值）後，咱們發現標籤傳播與內積類似性的組合致使最佳結果，也比開發集上的平均值更好。

評估框架。爲了評估WSD預測，咱們選擇了兩個測試集：一個來自Senseval2（Palmer等，2001）競賽，它測試名詞，動詞，形容詞和副詞的歧義，以及一個來自2013版（Navigli等，2013），僅關注名詞。

Senseval-2的測試集是英語全詞任務; senseval2今後之後。該數據集包含來自華爾街日報的三篇文章中的2,282個註釋。大多數註釋都是名義上的，但競爭中還包含動詞，形容詞和副詞的註釋。在該測試集中，66.8％的全部目標詞都用詞目的最多見詞義（MFS）註釋。這意味着老是選擇MFS的簡單策略將在該數據集上得到66.8％的F1。

SemEval-2013的測試集是從任務12：多語言詞義消歧; semeval2013。此任務包括兩個消除歧義的任務：英語，德語，法語，意大利語和西班牙語的實體連接和詞義消歧。該測試集包含之前版本的統計機器翻譯研討會中的13篇文章。這些文章共包含1,644個測試實例，這些都是名詞。 MFS基線在該數據集上的應用產生了63.0％的F1分數。

表1：與已公佈的結果相比，咱們的實施績效。咱們報告用於執行WSD的模型/方法，使用的帶註釋的數據集和記分器，以及每一個測試集的F1。在咱們的模型命名中，LSTM表示平均技術用於詞義分配，而LSTMLP表示使用標籤傳播得到的結果（參見第3節）。 T：以後的數據集表示用於表示語義的註釋語料庫，而U：OMSTI表示在使用標籤傳播的狀況下使用OMSTI做爲未標記的句子。 P：Sem Cor表示Sem Cor的感知分佈用於系統架構。使用了三個得分：「framework」是指Raganato等人的WSD評估框架。（2017A）; 「mapping to WN3.0」是指Yuan等人使用的評估，而「competition」是指比賽自己提供的得分（例如，semeval2013）。

5結果

在本節中，咱們報告了咱們對Yuan等人的結果的再現，而且附加了其餘實驗，以深刻了解該方法的優勢和缺點。這些實驗側重於最多見和較不常見的語義表現，註釋數據集的覆蓋範圍以及隨之而來的對消岐準確性的影響，包括對總體預測的影響，對語義表示的粒度的影響以及對未註釋數據和模型複雜性的影響。

複製結果。 咱們使用Yuan等人的最佳報告設置訓練了LSTM模型。（2016）（隱藏層大小h = 2048，嵌入維度p = 512）使用配備Intel Xeon E5-2650,256GB RAM，8TB磁盤空間和兩個NVIDIA Ge Force GTX 1080 Ti GPU的機器。咱們的訓練，充分利用一個GPU在TensorFlow一次epoch花了大約一天完成。整個訓練過程用了四個月。咱們在訓練期間三次測試了下游WSD任務的性能，並觀察到在第65個時期得到了最佳性能，儘管後來的模型產生了較低的負對數似然。所以，咱們在下面的實驗中使用了第65個時期產生的模型。

表1分別使用測試集senseval2和semeval2013表示結果。表格的上半部分顯示了咱們的複製結果，中間部分報告了Yuan等人的結果，而底部報告了其餘最早進方法的表明性樣本。

應該注意的是，使用semeval2013的測試集，全部得分者都使用Word Net 3.0，所以能夠直接比較各類方法的性能。然而，並不是senseval2中的全部答案均可以映射到WN3.0，咱們不知道Yuan等人是怎麼處理了這些案件。在咱們選擇進行評估的WSD評估框架（Moro et al，2014）中，這些案例要麼從新註釋要麼被刪除。所以，咱們在senseval2上的F1沒法直接與原始論文中的F1進行比較。

從表1的第一眼看，咱們觀察到若是咱們使用SemCor來訓練synset嵌入，那麼咱們的結果接近於senseval2上的最新技術（0.720對0.733）。在semeval2013上，咱們得到了與其餘嵌入式方法至關的結果（Raganato等，2017b; Iacobacci等，2016; Melamud等，2016）。然而，與Weissenborn等人的基於圖的方法的差距仍然很明顯。當咱們使用SemCor和OMSTI做爲註釋數據時，咱們的結果對於senseval2降低0.02點，而對於semeval2013，它們增長了近0.01。與袁等人不一樣，咱們沒有觀察到使用標籤傳播的改進（比較T：SemCor，U：OMSTI對T：SemCor沒有傳播）。可是，標籤傳播策略的性能在兩個測試集上仍然具備競爭力。

大多數與不太頻繁的語義實例。 原始論文僅分析了整個測試集的性能。咱們經過查看用於消除最多見語義（MFS）和低頻語義（LFS）實例消除歧義的性能來擴展此分析。第一類實例是正確連接最多見的語義實例，而第二類包含其他實例。這種分析很重要，由於在WSD中，老是選擇MFS的策略是WSD的有效基線，所以WSD系統對於最多見語義容易過擬合。

表2顯示了Yuan等人的方法，因爲對LFS實例的召回仍然至關高（0.41）（LFS實例的召回率低於MFS實例，由於它們的訓練數據減小，所以預計對MFS的覆蓋率與其餘監督系統相同）。

在semeval13上，僅使用SemCor（0.33）對LFS的召回已經相對較高，當使用SemCor和OMSTI時，LFS的召回率已達到0.38。爲了進行比較，在SemCor上訓練的默認系統IMS（Zhong和Ng，2010）僅在semeval13上得到0.15的R lfs（Postma等，2016），而且僅在具備大量註釋數據的狀況下達到0.33。

最後，咱們對標籤傳播的實現彷佛對MFS略微太高。當咱們比較使用SemCor和OMSTI的平均技術與使用標籤傳播時的結果時，咱們注意到MFS召回的增長（從0.85到0.91），而LFS召回從0.40降低到0.32。

註釋數據集中的含義覆蓋。 WSD程序依賴於帶註釋的語料庫來構成其語義表示，使得缺失註釋成爲不可逾越的障礙。實際上，帶註釋的數據集僅包含WordNet中列出的可能候選同義詞集的正確子集的註釋。咱們使用四個統計數據分析這種現象

1.候選覆蓋：對於每一個測試集，咱們在WordNet中執行查找以肯定全部目標詞目的惟一候選同義詞。而後，咱們肯定在註釋數據集中具備至少一個註釋的這些候選同義詞的百分比。

2.引理覆蓋：給定測試集中的目標詞，咱們在Word Net中執行查找以肯定惟一的候選同義詞。若是該目標引理的全部候選同義詞在註釋數據集中至少有一個註釋，咱們聲稱該目標詞被覆蓋。而後，目標覆蓋率是全部覆蓋的目標詞的百分比。高目標詞覆蓋率代表帶註釋的數據集涵蓋了測試集中的大部分含義。

3.金牌覆蓋：咱們計算測試集中正確答案的百分比，該答案在帶註釋的數據集中至少有一個註釋。

表3的「候選覆蓋率」列顯示SemCor僅包含semeval2和semeval2013的全部候選同義詞中不到70％的部分，這意味着模型將永遠不會具備超過30％的候選同義詞集的表示。即便添加了OMSTI，覆蓋率也不會超過70％，這意味着咱們缺少大量潛在註釋的證據。此外，「目標詞覆蓋率」一欄代表，咱們在兩個WSD競賽中只有30％的詞有全部潛在解決方案的證據，這意味着在絕大多數狀況下，從未見過某些解決方案。「黃金覆蓋率」列衡量是否至少在帶註釋的數據集中看到了正確的答案。數字代表測試集中20％的解決方案沒有任何註釋。使用咱們的方法，這些答案只有在詞是單詞義的狀況下才能返回，不然只能經過隨機猜想返回。

爲了進一步研究這些問題，表4報告了各類消除歧義策略的召回率，這些策略能夠根據詞的覆蓋範圍進行調用（這些能夠是：單一，平均，標籤傳播，MFS - 參見第3節中報告的總體程序）。

咱們觀察到MFS回退在得到整體高精度方面起着重要做用，由於它被屢次調用，特別是對於OMSTI，因爲數據集的覆蓋率低（在這種狀況下，它在775個案例中被調用，而在1072個場景中被調用）。例如，若是咱們沒有使用SemCor做爲帶註釋的語料庫對senseval2應用MFS回退策略，那麼咱們的性能將從0.72降至0.66，低於此任務的MFS基線0.67。標籤傳播確實適用於一半案件，但致使較低的結果。從這些結果中，咱們瞭解到這種方法的有效性很大程度上取決於帶註釋數據集的覆蓋範圍：若是它不像OMSTI那樣高，那麼這種方法的性能會下降到選擇MFS的方式。

詞義表徵的粒度。 Rothe和Sch¨utze（2017）提供了證據，證實詞義表徵的粒度對WSD表現有影響。更特別的是，他們的WSD系統在使用sensekeys（在他們的論文中稱爲lexemes）訓練時比在synsets上訓練得更好。雖然基於sensekey的消歧致使每一個目標詞的註釋數據較少，可是sensekey表示比在synset級別更精確（由於它是與特定含義相關聯的詞）。

本文討論的從新實現使咱們可以回答這個問題：「若是咱們將消歧水平從synset下降到sensekey，LSTM模型將如何工做？」表5顯示了該實驗的結果。從表中能夠看出，咱們的方法在兩個測試集上也返回了更好的性能。這種行爲頗有趣，一種可能的解釋是sensekeys比synsets更具辨別力，這有利於消歧。

註釋5：senseval2包含2,282個實例，若是不使用MFS回退策略，系統將錯誤地回答135個實例，所以性能降低0.06。

表5：使用synset或sensekey級別表示含義的咱們實現的F1分數的比較。

（a）性能與未註釋的語料庫大小

（b）性能與參數數量

圖2：（a）未註釋語料庫大小和（b）WSD性能參數數量的影響。參數數量包括隱藏層的權重，投影層的權重以及輸入和輸出嵌入。注意橫軸是對數刻度。

未註釋數據和模型大小的影響。 因爲未註釋的數據很是豐富，所以人們頗有可能使用愈來愈多的數據來訓練語言模型，但願更好的詞向量可以轉化爲改進的WSD性能。事實上袁等人使用了一個1000億標記語料庫只是強化了這種直覺。咱們經過改變用於訓練LSTM模型的語料庫的大小並測量相應的WSD性能來憑經驗評估未標記數據的有效性。更具體地說，訓練數據的大小設置爲千兆字庫的1％，10％，25％和100％（包含1.8×107,1.8×108,4.5×108和1.8×109字，分別）。

圖2a顯示了未註釋數據量對WSD性能的影響。 1000億（1011）標記的數據點對應於Yuan等人的報告結果。正如能夠預料的那樣，更大的語料庫會致使更有意義的上下文向量，從而致使更高的WSD性能。可是，F1中1％的改進所需的數據量呈指數級增加（注意橫軸是對數刻度）。從該圖中推斷，爲了經過添加更多未註釋的數據得到0.8 F1的性能，須要個標記的語料庫。這種觀察結果也適用於詞義分配的平衡。僅使用25％的未註釋數據已經使得低頻詞義的召回率下降了35％。

此外，人們可能指望經過增長LSTM模型的容量來進一步提升性能。爲了評估這種可能性，咱們進行了一項實驗，其中咱們改變了在100％GigaWord語料庫上訓練的LSTM模型的大小，並分別針對senseval2和semeval2013進行了評估。圖2b代表它是可能的，但須要一個指數級更大的模型。

最後，Reimers和Gurevych（2017）已經代表，報告測試分數的分佈而不是僅僅一個分數是相當重要的，由於這種作法可能致使錯誤的結論。正如第5節開頭所指出的那樣，咱們最大的模型須要幾個月才能進行訓練，所以訓練它們的多個版本是不切實際的。然而，咱們訓練了咱們最小的模型（h = 100，p = 10）十次，咱們的第二個最小模型（h = 256，p = 64）五次，並觀察到隨着參數數量的增長，F1的標準差從0.008減少到0.003。所以，咱們認爲隨機波動不會影響結果的解釋。

6 結論

本文報道了Yuan等人提出的模型的複製研究結果和另外的分析，以深刻了解各類因素對其表現的影響。

從咱們的結果中能夠得出一些有趣的結論。首先，咱們觀察到咱們不須要一個很是大的未註釋數據集來實現最早進的全字WSD性能，由於咱們使用的是Gigaword語料庫，它比Yuan等人的專有語料庫小兩個數量級，在senseval2和semeval2013上得到了相似的性能。更詳細的分析暗示，添加更多未註釋的數據和增長模型容量會受到收益遞減的影響。此外，咱們觀察到這種方法比其餘技術具備更平衡的詞義分配，如在頻率較低的狀況下相對較好的性能所示實例。此外，咱們發現註釋數據集中的有限意義覆蓋範圍爲總體性能設置了潛在的上限。具備詳細複製指令的代碼可在如下位置得到：https://github.com/cltl/wsd-dynamic-sense-vector，訓練的模型在: https://figshare.com/articles/A_Deep_Dive_into_Word_Sense_Disambiguation_with_LSTM/6352964.

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。