word2vec 的理解

時間 2019-12-15

標籤 word2vec word vec 理解欄目 Microsoft Office 简体版

原文原文鏈接

1.CBOW 模型函數

CBOW模型包括輸入層、投影層、輸出層。模型是根據上下文來預測當前詞，由輸入層到投影層的示意圖以下：優化

這裏是對輸入層的4個上下文詞向量求和獲得的當前詞向量，實際應用中，上下文窗口大小能夠設置。blog

輸出層是一顆哈夫曼樹，從向量W（t）到哈夫曼樹的轉化過程是這樣的：以訓練語料中出現的詞當葉子結點，以各詞在語料中出現的次數當權值來構造，這樣不只能夠保證出現頻率更高的詞能夠被更快地搜索到，並且爲使用Hierarchical softmax鋪平了道路。ip

對於詞典中的任意詞w，必然存在一條從根節點到這個詞的路徑，哈夫曼樹是一顆二叉樹，咱們能夠將根節點到葉子結點（詞）的過程視爲一個不斷進行二分類（這裏選擇邏輯迴歸）的過程，那麼每一次分類都會涉及到以一個機率選擇一個分支，那麼最後選擇某個葉子結點（詞）的機率就是從根節點到葉子結點過程當中全部節點選擇機率的連乘。表達式爲：二叉樹

爲何要獲得選擇每一個詞對應的機率呢？由於這涉及到了咱們的最優化方法。咱們使用同神經機率語言模型相同的對數似然函數來優化參數，對數似然函數以下：搜索

而後就可使用隨機梯度降低法來求解相關參數。方法

2.Skip-gram模型im

Skip-gram模型已知的是當前詞，須要對其上下文詞彙進行預測，所以，其條件機率的形式爲：margin

其中img

後面的過程與CBow模型相似。