word2vec原理(三) 基於Negative Sampling的模型

時間 2019-11-13

標籤 word2vec word vec 原理基於 negative sampling 模型欄目 Microsoft Office 简体版

原文原文鏈接

在上一篇中咱們講到了基於Hierarchical Softmax的word2vec模型，本文咱們咱們再來看看另外一種求解word2vec模型的方法：Negative Sampling。html

1. Hierarchical Softmax的缺點與改進

　　　　在講基於Negative Sampling的word2vec模型前，咱們先看看Hierarchical Softmax的的缺點。的確，使用霍夫曼樹來代替傳統的神經網絡，能夠提升模型訓練的效率。可是若是咱們的訓練樣本里的中心詞ww是一個很生僻的詞，那麼就得在霍夫曼樹中辛苦的向下走好久了。能不能不用搞這麼複雜的一顆霍夫曼樹，將模型變的更加簡單呢？python

　　　　Negative Sampling就是這麼一種求解word2vec模型的方法，它摒棄了霍夫曼樹，採用了Negative Sampling（負採樣）的方法來求解，下面咱們就來看看Negative Sampling的求解思路。git

2. 基於Negative Sampling的模型概述

　　　　既然名字叫Negative Sampling（負採樣），那麼確定使用了採樣的方法。採樣的方法有不少種，好比以前講到的大名鼎鼎的MCMC。咱們這裏的Negative Sampling採樣方法並無MCMC那麼複雜。github

　　　　好比咱們有一個訓練樣本，中心詞是ww,它周圍上下文共有2c2c個詞，記爲context(w)context(w)。因爲這個中心詞ww,的確和context(w)context(w)相關存在，所以它是一個真實的正例。經過Negative Sampling採樣，咱們獲得neg個和ww不一樣的中心詞wi,i=1,2,..negwi,i=1,2,..neg，這樣context(w)context(w)和$$w_i$就組成了neg個並不真實存在的負例。利用這一個正例和neg個負例，咱們進行二元邏輯迴歸，獲得負採樣對應每一個詞$w_i$對應的模型參數$\theta_{i}$，和每一個詞的詞向量。算法

　　　　從上面的描述能夠看出，Negative Sampling因爲沒有采用霍夫曼樹，每次只是經過採樣neg個不一樣的中心詞作負例，就能夠訓練模型，所以整個過程要比Hierarchical Softmax簡單。網絡

　　　　不過有兩個問題還須要弄明白：1）若是經過一個正例和neg個負例進行二元邏輯迴歸呢？ 2）如何進行負採樣呢？函數

　　　　咱們在第三節討論問題1，在第四節討論問題2.編碼

3. 基於Negative Sampling的模型梯度計算

　　　　Negative Sampling也是採用了二元邏輯迴歸來求解模型參數，經過負採樣，咱們獲得了neg個負例(context(w),wi)i=1,2,..neg(context(w),wi)i=1,2,..neg。爲了統一描述，咱們將正例定義爲w0w0。spa

　　　　在邏輯迴歸中，咱們的正例應該指望知足：code

P(context(w0),wi)=σ(xTw0θwi),yi=1,i=0P(context(w0),wi)=σ(xw0Tθwi),yi=1,i=0

　　　　咱們的負例指望知足：

P(context(w0),wi)=1−σ(xTw0θwi),yi=0,i=1,2,..negP(context(w0),wi)=1−σ(xw0Tθwi),yi=0,i=1,2,..neg

　　　　咱們指望能夠最大化下式：

∏i=0negP(context(w0),wi)=σ(xTw0θw0)∏i=1neg(1−σ(xTw0θwi))∏i=0negP(context(w0),wi)=σ(xw0Tθw0)∏i=1neg(1−σ(xw0Tθwi))

　　　　利用邏輯迴歸和上一節的知識，咱們容易寫出此時模型的似然函數爲：

∏i=0negσ(xTw0θwi)yi(1−σ(xTw0θwi))1−yi∏i=0negσ(xw0Tθwi)yi(1−σ(xw0Tθwi))1−yi

　　　　此時對應的對數似然函數爲：

L=∑i=0negyilog(σ(xTw0θwi))+(1−yi)log(1−σ(xTw0θwi))L=∑i=0negyilog(σ(xw0Tθwi))+(1−yi)log(1−σ(xw0Tθwi))

　　　　和Hierarchical Softmax相似，咱們採用隨機梯度上升法，僅僅每次只用一個樣本更新梯度，來進行迭代更新獲得咱們須要的xwi,θwi,i=0,1,..negxwi,θwi,i=0,1,..neg, 這裏咱們須要求出xw0,θwi,i=0,1,..negxw0,θwi,i=0,1,..neg的梯度。

　　　　首先咱們計算θwiθwi的梯度：

∂L∂θwi=yi(1−σ(xTw0θwi))xw0−(1−yi)σ(xTw0θwi)xw0=(yi−σ(xTw0θwi))xw0(1)(2)(1)∂L∂θwi=yi(1−σ(xw0Tθwi))xw0−(1−yi)σ(xw0Tθwi)xw0(2)=(yi−σ(xw0Tθwi))xw0

　　　　一樣的方法，咱們能夠求出xw0xw0的梯度以下：

∂L∂xw0=∑i=0neg(yi−σ(xTw0θwi))θwi∂L∂xw0=∑i=0neg(yi−σ(xw0Tθwi))θwi

　　　　有了梯度表達式，咱們就能夠用梯度上升法進行迭代來一步步的求解咱們須要的xw0,θwi,i=0,1,..negxw0,θwi,i=0,1,..neg。

4. Negative Sampling負採樣方法

　　　　如今咱們來看看如何進行負採樣，獲得neg個負例。word2vec採樣的方法並不複雜，若是詞彙表的大小爲VV,那麼咱們就將一段長度爲1的線段分紅VV份，每份對應詞彙表中的一個詞。固然每一個詞對應的線段長度是不同的，高頻詞對應的線段長，低頻詞對應的線段短。每一個詞ww的線段長度由下式決定：

len(w)=count(w)∑u∈vocabcount(u)len(w)=count(w)∑u∈vocabcount(u)

　　　　在word2vec中，分子和分母都取了3/4次冪以下：

len(w)=count(w)3/4∑u∈vocabcount(u)3/4len(w)=count(w)3/4∑u∈vocabcount(u)3/4

　　　　在採樣前，咱們將這段長度爲1的線段劃分紅MM等份，這裏M>>VM>>V，這樣能夠保證每一個詞對應的線段都會劃分紅對應的小塊。而M份中的每一份都會落在某一個詞對應的線段上。在採樣的時候，咱們只須要從MM個位置中採樣出negneg個位置就行，此時採樣到的每個位置對應到的線段所屬的詞就是咱們的負例詞。

　　　　在word2vec中，MM取值默認爲108108。

5. 基於Negative Sampling的CBOW模型

　　　　有了上面Negative Sampling負採樣的方法和邏輯迴歸求解模型參數的方法，咱們就能夠總結出基於Negative Sampling的CBOW模型算法流程了。梯度迭代過程使用了隨機梯度上升法：

　　　　輸入：基於CBOW的語料訓練樣本，詞向量的維度大小McountMcount，CBOW的上下文大小2c2c,步長ηη, 負採樣的個數neg

　　　　輸出：詞彙表每一個詞對應的模型參數θθ，全部的詞向量xwxw

　　　　1. 隨機初始化全部的模型參數θθ，全部的詞向量ww

　　　　2. 對於每一個訓練樣本(context(w0),w0)(context(w0),w0),負採樣出neg個負例中心詞wi,i=1,2,...negwi,i=1,2,...neg

　　　　3. 進行梯度上升迭代過程，對於訓練集中的每個樣本(context(w0),w0,w1,...wneg)(context(w0),w0,w1,...wneg)作以下處理：

　　　　　　a) e=0，計算xw0=12c∑i=12cxixw0=12c∑i=12cxi

　　　　　　b) for i= 0 to neg, 計算：

f=σ(xTw0θwi)f=σ(xw0Tθwi)

g=(yi−f)ηg=(yi−f)η

e=e+gθwie=e+gθwi

θwi=θwi+gxw0θwi=θwi+gxw0

　　　 c) 對於context(w)context(w)中的每個詞向量xkxk(共2c個)進行更新：

xk=xk+exk=xk+e

　　　　　　d) 若是梯度收斂，則結束梯度迭代，不然回到步驟3繼續迭代。

6. 基於Negative Sampling的Skip-Gram模型

　　　　有了上一節CBOW的基礎和上一篇基於Hierarchical Softmax的Skip-Gram模型基礎，咱們也能夠總結出基於Negative Sampling的Skip-Gram模型算法流程了。梯度迭代過程使用了隨機梯度上升法：

　　　　輸入：基於Skip-Gram的語料訓練樣本，詞向量的維度大小McountMcount，Skip-Gram的上下文大小2c2c,步長ηη， , 負採樣的個數neg。

　　　　輸出：詞彙表每一個詞對應的模型參數θθ，全部的詞向量xwxw

　　　　1. 隨機初始化全部的模型參數θθ，全部的詞向量ww

　　　　2. 對於每一個訓練樣本(context(w0),w0)(context(w0),w0),負採樣出neg個負例中心詞wi,i=1,2,...negwi,i=1,2,...neg

　　　　3. 進行梯度上升迭代過程，對於訓練集中的每個樣本(context(w0),w0,w1,...wneg)(context(w0),w0,w1,...wneg)作以下處理：

　　　　　　a) for i =1 to 2c:

　　　　　　　　i) e=0

　　　　　　　　ii) for j= 0 to neg, 計算：

f=σ(xTw0iθwj)f=σ(xw0iTθwj)

g=(yj−f)ηg=(yj−f)η

e=e+gθwje=e+gθwj

θwj=θwj+gxw0iθwj=θwj+gxw0i

　　　　　　　　iii) 對於context(w)context(w)中的每個詞向量xkxk(共2c個)進行更新：

xk=xk+exk=xk+e

　　　　　　b)若是梯度收斂，則結束梯度迭代，算法結束，不然回到步驟a繼續迭代。

7. Negative Sampling的模型源碼和算法的對應　　

　　　　這裏給出上面算法和word2vec源碼中的變量對應關係。

　　　　在源代碼中，基於Negative Sampling的CBOW模型算法在464-494行，基於Hierarchical Softmax的Skip-Gram的模型算法在520-542行。你們能夠對着源代碼再深刻研究下算法。

　　　　在源代碼中，neule對應咱們上面的ee, syn0對應咱們的xwxw, syn1neg對應咱們的θwiθwi, layer1_size對應詞向量的維度，window對應咱們的cc。negative對應咱們的neg, table_size對應咱們負採樣中的劃分數MM。

　　　　另外，vocab[word].code[d]指的是，當前單詞word的，第d個編碼，編碼不含Root結點。vocab[word].point[d]指的是，當前單詞word，第d個編碼下，前置的結點。這些和基於Hierarchical Softmax的是同樣的。

　　　　以上就是基於Negative Sampling的word2vec模型，但願能夠幫到你們，後面會講解用gensim的python版word2vec來使用word2vec解決實際問題。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。