word2vec 的理解

1.CBOW 模型函數

CBOW模型包括輸入層、投影層、輸出層。模型是根據上下文來預測當前詞,由輸入層到投影層的示意圖以下:優化

這裏是對輸入層的4個上下文詞向量求和獲得的當前詞向量,實際應用中,上下文窗口大小能夠設置。blog

輸出層是一顆哈夫曼樹,從向量W(t)到哈夫曼樹的轉化過程是這樣的:以訓練語料中出現的詞當葉子結點,以各詞在語料中出現的次數當權值來構造,這樣不只能夠保證出現頻率更高的詞能夠被更快地搜索到,並且爲使用Hierarchical softmax鋪平了道路。ip

對於詞典中的任意詞w,必然存在一條從根節點到這個詞的路徑,哈夫曼樹是一顆二叉樹,咱們能夠將根節點到葉子結點(詞)的過程視爲一個不斷進行二分類(這裏選擇邏輯迴歸)的過程,那麼每一次分類都會涉及到以一個機率選擇一個分支,那麼最後選擇某個葉子結點(詞)的機率就是從根節點到葉子結點過程當中全部節點選擇機率的連乘。表達式爲:二叉樹

爲何要獲得選擇每一個詞對應的機率呢?由於這涉及到了咱們的最優化方法。咱們使用同神經機率語言模型相同的對數似然函數來優化參數,對數似然函數以下:搜索

而後就可使用隨機梯度降低法來求解相關參數。方法

 2.Skip-gram模型im

Skip-gram模型已知的是當前詞,須要對其上下文詞彙進行預測,所以,其條件機率的形式爲:margin

其中img

後面的過程與CBow模型相似。

相關文章
相關標籤/搜索