這篇博客是我看了半年的論文後，本身對 Deep Learning 在 NLP 領域中應用的理解和總結，在此分享。其中必然有侷限性，歡迎各類交流，隨便拍。web

　　Deep Learning 算法已經在圖像和音頻領域取得了驚人的成果，可是在 NLP 領域中還沒有見到如此激動人心的結果。關於這個緣由，引一條我比較贊同的微博。算法

@王威廉：Steve Renals算了一下icassp錄取文章題目中包含deep learning的數量，發現有44篇，而naacl則有0篇。有一種說法是，語言（詞、句子、篇章等）屬於人類認知過程當中產生的高層認知抽象實體，而語音和圖像屬於較爲底層的原始輸入信號，因此後二者更適合作deep learning來學習特徵。
2013年3月4日 14:46

　　第一句就先不用管了，畢竟今年的 ACL 已經被灌了好多 Deep Learning 的論文了。第二句我很認同，不過我也有信心之後必定有人能挖掘出語言這種高層次抽象中的本質。不論最後這種方法是否是 Deep Learning，就目前而言，Deep Learning 在 NLP 領域中的研究已經將高深莫測的人類語言撕開了一層神祕的面紗。
　　我以爲其中最有趣也是最基本的，就是「詞向量」了。編程

　　將詞用「詞向量」的方式表示可謂是將 Deep Learning 算法引入 NLP 領域的一個核心技術。大多數宣稱用了 Deep Learning 的論文，其中每每也用了詞向量。bootstrap

本文目錄：
0. 詞向量是什麼
1. 詞向量的來歷
2. 詞向量的訓練
　　 2.0 語言模型簡介
　　 2.1 Bengio 的經典之做
　　 2.2 C&W 的 SENNA
　　 2.3 M&H 的 HLBL
　　 2.4 Mikolov 的 RNNLM
　　 2.5 Huang 的語義強化
　　 2.999 總結
3. 詞向量的評價
　　 3.1 提高現有系統
　　 3.2 語言學評價
參考文獻

0. 詞向量是什麼

　　天然語言理解的問題要轉化爲機器學習的問題，第一步確定是要找一種方法把這些符號數學化。
　　NLP 中最直觀，也是到目前爲止最經常使用的詞表示方法是 One-hot Representation，這種方法把每一個詞表示爲一個很長的向量。這個向量的維度是詞表大小，其中絕大多數元素爲 0，只有一個維度的值爲 1，這個維度就表明了當前的詞。
　　舉個栗子，
　　「話筒」表示爲 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …]
　　「麥克」表示爲 [0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 …]
　　每一個詞都是茫茫 0 海中的一個 1。
　　這種 One-hot Representation 若是採用稀疏方式存儲，會是很是的簡潔：也就是給每一個詞分配一個數字 ID。好比剛纔的例子中，話筒記爲 3，麥克記爲 8（假設從 0 開始記）。若是要編程實現的話，用 Hash 表給每一個詞分配一個編號就能夠了。這麼簡潔的表示方法配合上最大熵、SVM、CRF 等等算法已經很好地完成了 NLP 領域的各類主流任務。
　　固然這種表示方法也存在一個重要的問題就是「詞彙鴻溝」現象：任意兩個詞之間都是孤立的。光從這兩個向量中看不出兩個詞是否有關係，哪怕是話筒和麥克這樣的同義詞也不能倖免於難。網絡

　　Deep Learning 中通常用到的詞向量並非剛纔提到的用 One-hot Representation 表示的那種很長很長的詞向量，而是用 Distributed Representation（不知道這個應該怎麼翻譯，由於還存在一種叫「Distributional Representation」的表示方法，又是另外一個不一樣的概念）表示的一種低維實數向量。這種向量通常長成這個樣子：[0.792, −0.177, −0.107, 0.109, −0.542, …]。維度以 50 維和 100 維比較常見。這種向量的表示不是惟一的，後文會提到目前計算出這種向量的主流方法。
　　（我的認爲）Distributed representation 最大的貢獻就是讓相關或者類似的詞，在距離上更接近了。向量的距離能夠用最傳統的歐氏距離來衡量，也能夠用 cos 夾角來衡量。用這種方式表示的向量，「麥克」和「話筒」的距離會遠遠小於「麥克」和「天氣」。可能理想狀況下「麥克」和「話筒」的表示應該是徹底同樣的，可是因爲有些人會把英文名「邁克」也寫成「麥克」，致使「麥克」一詞帶上了一些人名的語義，所以不會和「話筒」徹底一致。app

1. 詞向量的來歷

　　Distributed representation 最先是 Hinton 在 1986 年的論文《Learning distributed representations of concepts》中提出的。雖然這篇文章沒有說要將詞作 Distributed representation，（甚至我很無厘頭地猜測那篇文章是爲了給他剛提出的 BP 網絡打廣告，）但至少這種先進的思想在那個時候就在人們的心中埋下了火種，到 2000 年以後開始逐漸被人重視。
　　Distributed representation 用來表示詞，一般被稱爲「Word Representation」或「Word Embedding」，中文俗稱「詞向量」。真的只能叫「俗稱」，算不上翻譯。半年前我本想翻譯的，可是硬是想不出 Embedding 應該怎麼翻譯的，後來就這麼叫習慣了-_-||| 若是有好的翻譯歡迎提出。（更新：@南大周志華在這篇微博中給了一個合適的翻譯：詞嵌入）Embedding 一詞的意義能夠參考維基百科的相應頁面（連接）。後文提到的全部「詞向量」都是指用 Distributed Representation 表示的詞向量。機器學習

　　若是用傳統的稀疏表示法表示詞，在解決某些任務的時候（好比構建語言模型）會形成維數災難[Bengio 2003]。使用低維的詞向量就沒這樣的問題。同時從實踐上看，高維的特徵若是要套用 Deep Learning，其複雜度幾乎是難以接受的，所以低維的詞向量在這裏也飽受追捧。
　　同時如上一節提到的，類似詞的詞向量距離相近，這就讓基於詞向量設計的一些模型自帶平滑功能，讓模型看起來很是的漂亮。函數

2. 詞向量的訓練

　　要介紹詞向量是怎麼訓練獲得的，就不得不提到語言模型。到目前爲止我瞭解到的全部訓練方法都是在訓練語言模型的同時，順便獲得詞向量的。
　　這也比較容易理解，要從一段無標註的天然文本中學習出一些東西，無非就是統計出詞頻、詞的共現、詞的搭配之類的信息。而要從天然文本中統計並創建一個語言模型，無疑是要求最爲精確的一個任務（也不排除之後有人創造出更好更有用的方法）。既然構建語言模型這一任務要求這麼高，其中必然也須要對語言進行更精細的統計和分析，同時也會須要更好的模型，更大的數據來支撐。目前最好的詞向量都來自於此，也就不難理解了。
　　這裏介紹的工做均爲從大量未標註的普通文本數據中無監督地學習出詞向量（語言模型原本就是基於這個想法而來的），能夠猜想，若是用上了有標註的語料，訓練詞向量的方法確定會更多。不過視目前的語料規模，仍是使用未標註語料的方法靠譜一些。
　　詞向量的訓練最經典的有 3 個工做，C&W 200八、M&H 200八、Mikolov 2010。固然在說這些工做以前，不得不介紹一下這一系列中 Bengio 的經典之做。

2.0 語言模型簡介

　　插段廣告，簡單介紹一下語言模型，知道的能夠無視這節。
　　語言模型其實就是看一句話是否是正常人說出來的。這玩意頗有用，好比機器翻譯、語音識別獲得若干候選以後，能夠利用語言模型挑一個儘可能靠譜的結果。在 NLP 的其它任務裏也都能用到。
　　語言模型形式化的描述就是給定一個字符串，看它是天然語言的機率 $P (w_{1}, w_{2}, \dots, w_{t})$

2.1 Bengio 的經典之做

　　用神經網絡訓練語言模型的思想最先由百度 IDL 的徐偉於 2000 提出。（感謝 @餘凱_西二旗民工博士指出。）其論文《Can Artificial Neural Networks Learn Language Models?》提出一種用神經網絡構建二元語言模型（即 $P (w_{t} | w_{t - 1})$

　　訓練語言模型的最經典之做，要數 Bengio 等人在 2001 年發表在 NIPS 上的文章《A Neural Probabilistic Language Model》。固然如今看的話，確定是要看他在 2003 年投到 JMLR 上的同名論文了。

　　Bengio 用了一個三層的神經網絡來構建語言模型，一樣也是 n-gram 模型。如圖1。

圖1（點擊查看大圖）

　　圖中最下方的 $w_{t - n + 1}, \dots, w_{t - 2}, w_{t - 1}$

y = b + W x + U \tanh (d + H x)

　　式子中的 $U$

　　如今萬事俱備，用隨機梯度降低法把這個模型優化出來就能夠了。須要注意的是，通常神經網絡的輸入層只是一個輸入值，而在這裏，輸入層 $x$

　　在結束介紹 Bengio 大牛的經典做品以前再插一段八卦。在其 JMLR 論文中的將來工做一段，他提了一個能量函數，把輸入向量和輸出向量統一考慮，並以最小化能量函數爲目標進行優化。後來 M&H 工做就是以此爲基礎展開的。
　　他提到一詞多義有待解決，9 年以後 Huang 提出了一種解決方案。他還在論文中隨口（不是在 Future Work 中寫的）提到：可使用一些方法下降參數個數，好比用循環神經網絡。後來 Mikolov 就順着這個方向發表了一大堆論文，直到博士畢業。
　　大牛就是大牛。

2.2 C&W 的 SENNA

　　Ronan Collobert 和 Jason Weston 在 2008 年的 ICML 上發表的《A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning》裏面首次介紹了他們提出的詞向量的計算方法。和上一篇牛文相似，若是如今要看的話，應該去看他們在 2011 年投到 JMLR 上的論文《Natural Language Processing (Almost) from Scratch》。文中總結了他們的多項工做，很是有系統性。這篇 JMLR 的論文題目也很霸氣啊：從頭開始搞 NLP。他們還把論文所寫的系統開源了，叫作 SENNA（主頁連接），3500 多行純 C 代碼也是寫得很是清晰。我就是靠着這份代碼才慢慢看懂這篇論文的。惋惜的是，代碼只有測試部分，沒有訓練部分。

　　實際上 C&W 這篇論文主要目的並非在於生成一份好的詞向量，甚至不想訓練語言模型，而是要用這份詞向量去完成 NLP 裏面的各類任務，好比詞性標註、命名實體識別、短語識別、語義角色標註等等。
　　因爲目的的不一樣，C&W 的詞向量訓練方法在我看來也是最特別的。他們沒有去近似地求 $P (w_{t} | w_{1}, w_{2}, \dots, w_{t - 1})$

\sum_{x \in X} \sum_{w \in D} max {0, 1 - f (x) + f (x^{(w)})}

　　 $X$

　　 $f$

　　他們在實驗中取窗口大小 $n = 11$

　　不過好在 Turian 在 2010 年對 C&W 和 M&H 向量作對比時，從新訓練了一份詞向量放到了網上，那份就沒上面的兩個「問題」（確切的說應該是差異），也能夠用的更放心。後面會詳細介紹 Turian 的工做。

　　關於這篇論文其實仍是有些東西能夠吐槽的，不過訓練詞向量這一塊沒有，是論文其餘部分的。把吐槽機會留給下一篇博文了。

2.3 M&H 的 HLBL

　　Andriy Mnih 和 Geoffrey Hinton 在 2007 年和 2008 年各發表了一篇關於訓練語言模型和詞向量的文章。2007 年發表在 ICML 上的《Three new graphical models for statistical language modelling》代表了 Hinton 將 Deep Learning 戰場擴展到 NLP 領域的決心。2008 年發表在 NIPS 上的《A scalable hierarchical distributed language model》則提出了一種層級的思想替換了 Bengio 2003 方法中最後隱藏層到輸出層最花時間的矩陣乘法，在保證效果的基礎上，同時也提高了速度。下面簡單介紹一下這兩篇文章。

　　Hinton 在 2006 年提出 Deep Learning 的概念以後，很快就來 NLP 最基礎的任務上試了一把。果真，有效。M&H 在 ICML 2007 上發表的這篇文章提出了「Log-Bilinear」語言模型。文章標題中能夠看出他們其實一共提了 3 個模型。從最基本的 RBM 出發，一點點修改能量函數，最後獲得了「Log-Bilinear」模型。
　　模型若是用神經網絡的形式寫出來，是這個樣子：

h = \sum_{i = 1}^{t - 1} H_{i} C (w_{i})

y_{j} = C (w_{j})^{T} h

　　這裏的兩個式子能夠合寫成一個 $y_{j} = \sum_{i = 1}^{n - 1} C (w_{j})^{T} H_{i} C (w_{i})$

　　爲了更好地理解模型的含義，仍是來看這兩個拆解的式子。 $h$

　　這種「Log-Bilinear」模型看起來每一個詞須要使用上文全部的詞做爲輸入，因而語料中最長的句子有多長，就會有多少個 $H$

　　M&H 的思路如前面提到，是 Bengio 2003 提出的。通過大牛的實現，效果確實不錯。雖然複雜度沒有數量級上的下降，可是因爲是純線性模型，沒有激活函數（固然在作語言模型的時候，最後仍是對 $y_{j}$

——————–兩篇文章中間是否是應該有個分割線？——————–

　　2008 年 NIPS 的這篇論文，介紹的是「hierarchical log-bilinear」模型，不少論文中都把它稱做簡稱「HLBL」。和前做相比，該方法使用了一個層級的結構作最後的預測。能夠簡單地設想一下把網絡的最後一層變成一顆平衡二叉樹，二叉樹的每一個非葉節點用於給預測向量分類，最後到葉節點就能夠肯定下一個詞是哪一個了。這在複雜度上有顯著的提高，之前是對 $| V |$

　　這種層級的思想最初可見於 Frederic Morin 和 Yoshua Bengio 於 2005 年發表的論文《Hierarchical probabilistic neural network language model》中。可是這篇論文使用 WordNet 中的 IS-A 關係，轉化爲二叉樹用於分類預測。實驗結果發現速度提高了，效果變差了。
　　有了前車可鑑，M&H 就但願能從語料中自動學習出一棵樹，並能達到比人工構建更好的效果。M&H 使用一種 bootstrapping 的方法來構建這棵樹。從隨機的樹開始，根據分類結果不斷調整和迭代。最後獲得的是一棵平衡二叉樹，而且同一個詞的預測可能處於多個不一樣的葉節點。這種用多個葉節點表示一個詞的方法，能夠提高下一個詞是多義詞時候的效果。M&H 作的還不夠完全，後面 Huang 的工做直接對每一個詞學習出多個詞向量，能更好地處理多義詞。

2.4 Mikolov 的 RNNLM

　　前文說到，Bengio 2003 論文裏提了一句，可使用一些方法下降參數個數，好比用循環神經網絡。Mikolov 就抓住了這個坑，今後與循環神經網絡結下了不解之緣。他最先用循環神經網絡作語言模型是在 INTERSPEECH 2010 上發表的《Recurrent neural network based language model》裏。Recurrent neural network 是循環神經網絡，簡稱 RNN，還有個 Recursive neural networks 是遞歸神經網絡（Richard Socher 藉此發了一大堆論文），也簡稱 RNN。看到的時候須要注意區分一下。不過到目前爲止，RNNLM 只表示循環神經網絡作的語言模型，尚未歧義。
　　在以後的幾年中，Mikolov 在一直在RNNLM 上作各類改進，有速度上的，也有準確率上的。如今想了解 RNNLM，看他的博士論文《Statistical Language Models based on Neural Networks》確定是最好的選擇。

　　循環神經網絡與前面各方法中用到的前饋網絡在結構上有比較大的差異，可是原理仍是同樣的。網絡結構大體如圖2。

圖2（點擊查看大圖）

　　左邊是網絡的抽象結構，因爲循環神經網絡多用在時序序列上，所以裏面的輸入層、隱藏層和輸出層都帶上了「(t)」。 $w (t)$

s (t) = sigmoid (U w (t) + W s (t - 1))

　　從右圖能夠看出循環神經網絡是如何展開的。每來一個新詞，就和上一個隱藏層聯合計算出下一個隱藏層，隱藏層反覆利用，一直保留着最新的狀態。各隱藏層經過一層傳統的前饋網絡獲得輸出值。

　　 $w (t)$

　　循環神經網絡的最大優點在於，能夠真正充分地利用全部上文信息來預測下一個詞，而不像前面的其它工做那樣，只能開一個 n 個詞的窗口，只用前 n 個詞來預測下一個詞。從形式上看，這是一個很是「終極」的模型，畢竟語言模型裏能用到的信息，他全用上了。惋惜的是，循環神經網絡形式上很是好看，使用起來卻很是難優化，若是優化的很差，長距離的信息就會丟失，甚至還沒法達到開窗口看前若干個詞的效果。Mikolov 在 RNNLM 裏面只使用了最樸素的 BPTT 優化算法，就已經比 n-gram 中的 state of the art 方法有更好的效果，這很是使人欣慰。若是用上了更強的優化算法，最後效果確定還能提高不少。

　　對於最後隱藏層到輸出層的巨大計算量，Mikolov 使用了一種分組的方法：根據詞頻將 $| V |$

　　Mikolov 的 RNNLM 也是開源的（網址）。很是算法風格的代碼，幾乎全部功能都在一個文件裏，工程也很好編譯。比較好的是，RNNLM 能夠完美支持中文，若是語料存成 UTF-8 格式，就能夠直接用了。

　　最後吐槽一句，我以爲他在隱藏層用 sigmoid 做爲激活函數不夠漂亮。由於隱藏層要和輸入詞聯合計算獲得下一個隱藏層，若是當前隱藏層的值全是正的，那麼輸入詞對應的參數就會略微偏負，也就是說最後獲得的詞向量的均值不在 0 附近。總感受很差看。固然，從實驗效果看，是我太強迫症了。

2.5 Huang 的語義強化

　　與前幾位大牛的工做不一樣，Eric H. Huang 的工做是在 C&W 的基礎上改進而成的，並不是自成一派從頭作起。他這篇發表在 ACL 2012 上的《Improving Word Representations via Global Context and Multiple Word Prototypes》試圖經過對模型的改進，使得詞向量富含更豐富的語義信息。他在文中提出了兩個主要創新來完成這一目標：（其實從論文標題就能看出來）第一個創新是使用全文信息輔助已有的局部信息，第二個創新是使用多個詞向量來表示多義詞。下面逐一介紹。

　　Huang 認爲 C&W 的工做只利用了「局部上下文（Local Context）」。C&W 在訓練詞向量的時候，只使用了上下文各 5 個詞，算上本身總共有 11 個詞的信息，這些局部的信息還不能充分挖掘出中間詞的語義信息。Huang 直接使用 C&W 的網絡結構計算出一個得分，做爲「局部得分」。
　　而後 Huang 提出了一個「全局信息」，這有點相似傳統的詞袋子模型。詞袋子模型是把文章中全部詞的 One-hot Representation 加起來，造成一個向量（就像把詞全都扔進一個袋子裏），用來表示文章。Huang 的全局模型是將文章中全部詞的詞向量求個加權平均（權重是詞的 idf），做爲文章的語義。他把文章的語義向量和當前詞的詞向量拼接起來，造成一個兩倍長度的向量做爲輸入，以後仍是用 C&W 的網絡結構算出一個打分。
　　有了 C&W 方法的獲得的「局部得分」，再加上在 C&W 方法基礎上改造獲得的「全局得分」，Huang 直接把兩個得分相加，做爲最終得分。最終得分使用 C&W 提出的 pair-wise 目標函數來優化。
　　加了這個全局信息有什麼用處呢？Huang 在實驗中發現，他的模型能更好地捕捉詞的語義信息。好比 C&W 的模型中，與 markets 最相近的詞爲 firms、industries；而 Huang 的模型獲得的結果是 market、firms。很明顯，C&W 的方法因爲只考慮了臨近詞的信息，最後的結果是詞法特徵最相近的詞排在了前面（都是複數形式）。不過我以爲這個多是英語纔有的現象，中文沒有詞形變化，若是在中文中作一樣的實驗還不知道會有什麼效果。

　　Huang 論文的第二個貢獻是將多義詞用多個詞向量來表示。Bengio 2003 在最後提過這是一個重要的問題，不過當時他還在想辦法解決，如今 Huang 給出了一種思路。
　　將每一個詞的上下文各 5 個詞拿出來，對這 10 個詞的詞向量作加權平均（一樣使用 idf 做爲權重）。對全部獲得的上下文向量作 k-means 聚類，根據聚類結果給每一個詞打上標籤（不一樣類中的同一個詞，看成不一樣的詞處理），最後從新訓練詞向量。
　　固然這個實驗的效果也是很不錯的，最後 star 的某一個表示最接近的詞是 movie、film；另外一個表示最接近的詞是 galaxy、planet。
　　
　　這篇文章還作了一些對比實驗，在下一章評價裏細講。

2.999 總結

　　//博主道：本節承上啓下，不知道應該放在第 2 章仍是第 3 章，便將小節號寫爲 2.999。

　　講完了大牛們的各類方法，本身也忍不住來總結一把。固然，爲了方便對比，我先列舉一下上面提到的各個系統的現有資源，見下表。對應的論文不在表中列出，可參見最後的參考文獻。

搜索:

名稱	訓練語料及規模	詞向量	特色	資源
C&W	English Wikipedia + Reuters RCV1 共 631M + 221M 詞	130000 詞 50 維	不區分大小寫；通過有監督修正；訓練了 7 周	測試代碼、詞向量 [連接]
C&W - Turian	Reuters RCV1 63M 詞	268810 詞 2五、50、 100、200 維	區分大小寫；訓練了若干周	訓練代碼、詞向量 [連接]
M&H - Turian	Reuters RCV1	246122 詞 50、100 維	區分大小寫；用GPU訓練了7天	詞向量 [連接]
Mikolov	Broadcast news	82390 詞 80、640、 1600 維	不區分大小寫；訓練了若干天	訓練、測試代碼、詞向量 [連接]
Huang 2012	English Wikipedia	100232 詞 50 維	不區分大小寫；最高頻的6000詞，每詞有10種表示	訓練、測試代碼、語料及詞向量 [連接]

顯示第 1 至 5 項結果，共 5 項

　　Turian 的工做前面只是提了一下，他在作 C&W 向量與 H&M 向量的對比實驗時，本身按照論文從新實現了一遍他們的方法，並公佈了詞向量。後來 C&W 在主頁上強調了一下：儘管不少論文把 Turian 實現的結果叫作 C&W 向量，可是與我發佈的詞向量是不一樣的，我這個在更大的語料上訓練，還花了兩個月時間呢！
　　Turian 公佈的 H&M 向量是直接請 Andriy Mnih 在 Turian 作好的語料上運行了一下 HLBL，因此沒有代碼公佈。同時 Turian 本身實現了一份 LBL模型，可是沒有公佈訓練出來的詞向量。（這是根據他主頁上描述推測的結果，從 Turian 的論文中看，他應該是實現了 HLBL 算法而且算出詞向量的。）
　　RCV1 的詞數兩篇文章中所寫的數據差距較大，還不知道是什麼緣由。

　　Holger Schwenk 在詞向量和語言模型方面也作了一些工做，看起來大致類似，也沒仔細讀過他的論文。有興趣的讀者能夠直接搜他的論文。

　　事實上，除了 RNNLM 之外，上面其它全部模型在第一層（輸入層到隱藏層）都是等價的，均可以當作一個單層網絡。可能形式最爲特別的是 M&H 的模型，對前面的每一個詞單獨乘以矩陣 $H_{i}$

[H_{1} H_{2} \dots H_{t}] [\begin{matrix} C (w_{1}) \\ C (w_{2}) \\ \dots \\ C (w_{t}) \end{matrix}] = H_{1} C (w_{1}) + H_{2} C (w_{2}) + \dots + H_{t} C (w_{t})

　　這麼看來仍是等價的。

　　因此前面的這麼多模型，本質是很是類似的。都是從前若干個詞的詞向量經過線性變換抽象出一個新的語義（隱藏層），再經過不一樣的方法來解析這個隱藏層。模型的差異主要就在隱藏層到輸出層的語義。Bengio 2003 使用了最樸素的線性變換，直接從隱藏層映射到每一個詞；C&W 簡化了模型（不求語言模型），經過線性變換將隱藏層轉換成一個打分；M&H 複用了詞向量，進一步強化了語義，並用層級結構加速；Mikolov 則用了分組來加速。

　　每種方法真正的差異看起來並不大，固然裏面的這些創新，也都是有據可循的。下一章就直接來看看不一樣模型的效果如何。

3. 詞向量的評價

　　詞向量的評價大致上能夠分紅兩種方式，第一種是把詞向量融入現有系統中，看對系統性能的提高；第二種是直接從語言學的角度對詞向量進行分析，如類似度、語義偏移等。

3.1 提高現有系統

　　詞向量的用法最多見的有兩種：
　　1. 直接用於神經網絡模型的輸入層。如 C&W 的 SENNA 系統中，將訓練好的詞向量做爲輸入，用前饋網絡和卷積網絡完成了詞性標註、語義角色標註等一系列任務。再如 Socher 將詞向量做爲輸入，用遞歸神經網絡完成了句法分析、情感分析等多項任務。
　　2. 做爲輔助特徵擴充現有模型。如 Turian 將詞向量做爲額外的特徵加入到接近 state of the art 的方法中，進一步提升了命名實體識別和短語識別的效果。
　　具體的用法理論上會在下一篇博文中細講。
　　
　　C&W 的論文中有一些對比實驗。實驗的結果代表，使用詞向量做爲初始值替代隨機初始值，其效果會有很是顯著的提高（如：詞性標註準確率從 96.37% 提高到 97.20%；命名實體識別 F 值從 81.47% 提高到 88.67%）。同時使用更大的語料來訓練，效果也會有一些提高。

　　Turian 發表在 ACL 2010 上的實驗對比了 C&W 向量與 M&H 向量用做輔助特徵時的效果。在短語識別和命名實體識別兩個任務中，C&W 向量的效果都有略微的優點。同時他也發現，若是將這兩種向量融合起來，會有更好的效果。除了這兩種詞向量，Turian 還使用 Brown Cluster 做爲輔助特徵作了對比，效果最好的實際上是 Brown Cluster，不過這個已經超出本文的範圍了。

3.2 語言學評價

　　Huang 2012 的論文提出了一些創新，能提高詞向量中的語義成分。他也作了一些實驗對比了各類詞向量的語義特性。實驗方法大體就是將詞向量的類似度與人工標註的類似度作比較。最後 Huang 的方法語義類似度最好，其次是 C&W 向量，再而後是 Turian 訓練的 HLBL 向量與 C&W 向量。這裏由於 Turian 訓練詞向量時使用的數據集（RCV1）與其餘的對比實驗（Wiki）並不相同，所以並非很是有可比性。但從這裏能夠推測一下，可能更大更豐富的語料對於語義的挖掘是有幫助的。

　　還有一個有意思的分析是 Mikolov 在 2013 年剛剛發表的一項發現。他發現兩個詞向量之間的關係，能夠直接從這兩個向量的差裏體現出來。向量的差就是數學上的定義，直接逐位相減。好比 $C (king) - C (queen) \approx C (man) - C (woman)$

　　這些實驗結果中最容易理解的是：語料越大，詞向量就越好。其它的實驗因爲缺少嚴格控制條件進行對比，談不上哪一個更好哪一個更差。不過這裏的兩個語言學分析都很是有意思，尤爲是向量之間存在這種線性平移的關係，可能會是詞向量發展的一個突破口。

參考文獻

Yoshua Bengio, Rejean Ducharme, Pascal Vincent, and Christian Jauvin. A neural probabilistic language model. Journal of Machine Learning Research (JMLR), 3:1137–1155, 2003. [PDF]

Ronan Collobert, Jason Weston, Léon Bottou, Michael Karlen, Koray Kavukcuoglu and Pavel Kuksa.Natural Language Processing (Almost) from Scratch. Journal of Machine Learning Research (JMLR), 12:2493-2537, 2011. [PDF]

Andriy Mnih & Geoffrey Hinton. Three new graphical models for statistical language modelling. International Conference on Machine Learning (ICML). 2007. [PDF]
Andriy Mnih & Geoffrey Hinton. A scalable hierarchical distributed language model. The Conference on Neural Information Processing Systems (NIPS) (pp. 1081–1088). 2008. [PDF]

Mikolov Tomáš. Statistical Language Models based on Neural Networks. PhD thesis, Brno University of Technology. 2012. [PDF]

Turian Joseph, Lev Ratinov, and Yoshua Bengio. Word representations: a simple and general method for semi-supervised learning. Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL). 2010. [PDF]

Eric Huang, Richard Socher, Christopher Manning and Andrew Ng. Improving word representations via global context and multiple word prototypes. Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1. 2012. [PDF]

Mikolov, Tomas, Wen-tau Yih, and Geoffrey Zweig. Linguistic regularities in continuous space word representations. Proceedings of NAACL-HLT. 2013. [PDF]

　　斷斷續續寫了這麼多，若是有人看加上本身有時間的話，還會有續集《Deep Learning in NLP （二）模型及用法》，也是介紹幾篇文章，從模型的層次作一些粗淺的分析。

【NLP】天然語言處理：詞向量和語言模型