基線系統須要受到更多關注:基於詞向量的簡單模型 網絡
最近閱讀了《Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms》這篇論文[1],該工做來自杜克大學,發表在ACL 2018上。論文詳細比較了直接在詞向量上進行池化的簡單模型和主流神經網絡模型(例如CNN和RNN)在NLP多個任務上的效果。實驗結果代表,在不少任務上簡單的詞向量模型和神經網絡模型(CNN和LSTM)的效果至關,有些任務甚至簡單模型更好。下面是我對這篇論文的閱讀筆記。性能
1 引言學習
在NLP領域,詞向量(word embedding)已經受到了研究者們的普遍關注和應用。它經過大量的無標籤數據將每一個詞表示成一個固定維度的向量。相比傳統的獨熱(one-hot)表示,詞向量具備低維緊密的特色,並能學習到豐富的語義和句法信息。目前表明性的詞向量工做有word2vec [2]和GloVe [3]。在NLP領域,使用詞向量將一個變長文本表示成一個固定向量的經常使用方法有:1)以詞向量爲輸入,使用一個複雜的神經網絡(CNN,RNN等)來進行文本表示學習;2)在詞向量的基礎上,直接簡單的使用按元素求均值或者相加的簡單方法來表示。對於複雜神經網絡方法,模型複雜計算量大耗時。該論文經過大量實驗發現,基於詞向量的簡單池化模型對於大多數的NLP問題,已經表現得足夠好,有時甚至效果超過了複雜的神經網絡模型。測試
2. 方法優化
該文對比的主流神經網絡模型爲:LSTM和CNN。對於LSTM特色在於使用門機制來學習長距離依賴信息,能夠認爲考慮了詞序信息。對於CNN特色是利用滑動窗口卷積連續的詞特徵,而後經過池化操做學習到最顯著的語義特徵。spa
對於簡單的詞向量模型(Simple word-embedding model,SWEM),做者提出了下面幾種方法。設計
接下來對比一下SWEM和神經網絡模型結構。能夠看到SWEM僅對詞向量使用池化操做,並無額外的參數,且能夠高度並行化。3d
3. 實驗結果與分析orm
實驗中,使用了300維的GloVe詞向量,對於未登陸詞按照均勻分佈進行初始化。最終的分類器使用了多層感知機MLP進行分類。在文檔分類,文本序列匹配和句子分類三大任務,共17個數據集上進行了實驗並進行了詳細的分析。blog
3.1 文檔分類
實驗中的文檔分類任務能被分爲三種類型:主題分類,情感分析和本體分類。實驗結果以下:
使人驚奇的是在主題分類任務上,SWEM模型得到了比LSTM和CNN更好的結果,特別是SWEM-concat模型的效果甚至優於29層的Deep CNN。在本體分類任務上也有相似的趨勢。有趣的是對於情感分析任務,CNN和LSTM效果要好於不考慮詞序信息的SWEM模型。對於考慮了詞序和空間信息的SWEM-hier取得了和CNN/LSTM至關的結果。這多是情感分析任務須要詞序信息。例如"not really good"和"really not good"的情感等級是不同的。
在大多數任務上SWEM-max的方法略差於SWEM-aver,可是它提供了互補的信息,因此SWEM-concat得到了更好的結果。更重要的是,SWEM-max具備很強的模型解釋性。論文在Yahoo數據集上訓練了SWEM-max模型(詞向量隨機初始化)。而後根據訓練學習後的詞向量中的每一維的值畫了直方圖,以下圖1:
能夠看到相比與GloVe,SWEM-max學習出來的詞向量是十分稀疏的,這說明在預測文本時,模型只依靠一些關鍵詞,這就增長了模型的解釋性。論文在整個詞彙表中根據詞向量維度挑選出了一個維度中值最大的5個詞展現在表3中。能夠看到每一個維度選出的詞是同一個主題相關的。甚至模型能夠學到沒有標籤信息的結構,例如表3中的"Chemistry",在數據集中是沒有chemistry標籤的,它屬於science主題。
在模型時間上,SWEM模型要比CNN和LSTM都高效。
3.2 文本序列匹配
在句子匹配問題的實驗室中,主要包括天然語言推理,問答中答案句選擇和複述識別任務。實驗結果以下:
能夠看到除了WikiQA數據集,其餘數據集上,SWEM模型得到了比CNN和LSTM更好的結果。這多是由於在當匹配天然語言句子時,在大多數狀況下,只須要使用簡單模型對兩個序列之間在單詞級別上進行對比就足夠了。從這方面也能夠看出,詞序信息對於句子匹配的做用比較小。此外簡單模型比LSTM和CNN更容易優化。
3.3 句子分類
相比與前面的文檔分類,句子分類任務平均只有20個詞的長度。實驗結果以下:
在情感分類任務上,和前面文檔分類的實驗結果同樣,SWEM效果差於LSTM和CNN,在其餘兩個任務上,效果只是略差於NN模型。相比與前面的文檔分類,在短句子分類上SWEM的效果要比長文檔的分類效果要差。這也多是因爲短句中詞序信息更重要。此外,論文還在附加材料中補充了對序列標註任務的實驗,實驗結果以下:
能夠看到對於詞序敏感的序列標註任務,SWEM的效果明顯要差於CNN和RNN。
3.4 詞序信息的重要性
從上面能夠看到,SWEM模型的一個缺點在於忽略了詞序信息,而CNN和LSTM模型可以必定程度的學習詞序信息。那麼在上述的這些任務中,詞序信息到底有多重要?爲了探索這個問題,該文將訓練數據集的詞序打亂,並保持測試集的詞序不變,就是爲了去掉詞序信息。而後使用了可以學習詞序信息LSTM模型進行了實驗,實驗結果以下:
使人驚奇地發現,在Yahoo和SNLI數據集(也就是主題分類和文本蘊涵任務)上,在亂序訓練集上訓練的LSTM取得了和原始詞序至關的結果。這說明詞序信息對這兩個問題並無明顯的幫助。可是在情感分析任務上,亂序的LSTM結果仍是有所降低,說明詞序對於情感分析任務仍是比較重要。
在來看看SWEM-hier在情感分析上的效果,相比與SWEM其餘模型,SWEM-hier至關於學習了n-gram特徵,保留了必定的局部詞序信息。在兩個情感任務上效果也是因爲其餘SWEM模型,這也證實了SWEM-hier可以學習必定的詞序信息。
3.5. 其餘實驗
除了上述實驗,該文還設置了一些實驗在說明SWEM的性能。對於以前的使用非線性的MLP做爲分類器,替換成了線性分類器進行了實驗。在Yahoo(從73.53%到73.18%)和Yelp P(93.76%到93.66%)數據集上SWEM的效果並未明顯降低。這也說明了SWEM模型可以抽取魯棒、有信息的句子表示。該文還在中文數據集上進行了實驗,實驗結果代表層次池化比最大和平均池化更適合中文文本分類,這樣暗示了中文可能比英文對詞序更加敏感。
在附加材料中,該文還用SWEM-concat模型在Yahoo數據集上對詞向量維度(從3維到1000維)進行了實驗,這裏詞向量使用隨機初始化。
能夠看到高的維度通常效果會更好一些,由於可以表示更豐富的語義信息。可是,能夠看到詞向量在10維的時候已經能夠達到和1000維至關的效果。其實這也和論文[4]的結果比較一致,在一些任務上小維度的詞向量效果也已經足夠好了。
此外,論文還對訓練集規模對模型效果影響進行了實驗。在Yahoo和SNLI數據集上分別取不一樣比例的訓練集對模型進行訓練測試,結果以下圖:
能夠看到當標註訓練集規模比較小時,簡單的SWEM模型的效果更好,這可能也是CNN和LSTM複雜模型在小規模訓練數據上容易過擬合致使的。
4. 總結
該論文展現了在詞向量上僅使用池化操做的簡單模型SWEM的性能,在多個NLP任務數據集上進行了實驗,比較了SWEM和目前主流的NN模型(CNN和LSTM)性能。實驗發現,SWEM這樣簡單的基線系統在不少任務上取得了與NN至關的結果,實驗中的一些總結以下:
總的來講,咱們在進行研究時,有時爲了讓模型學習到更爲豐富的信息,會把模型設計得十分複雜,可是這篇論文經過實驗告訴了咱們,簡單的基線系統也可以得到很不錯的表現。當咱們作具體任務時,應該根據具體需求來選擇設計模型(模型效果,模型複雜度,模型運行時間等的權衡),簡單有效的系統也應該受到關注。
參考文獻:
[1] Shen, Dinghan, et al. "Baseline needs more love: On simple word-embedding-based models and associated pooling mechanisms." arXiv preprint arXiv:1805.09843 (2018).
[2] Mikolov, Tomas, et al. "Distributed representations of words and phrases and their compositionality." Advances in neural information processing systems. 2013.
[3] Pennington, Jeffrey, Richard Socher, and Christopher Manning. "Glove: Global vectors for word representation." Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014.
[4] Lai, Siwei, et al. "How to generate a good word embedding." IEEE Intelligent Systems 31.6 (2016): 5-14.