負採樣算法

負採樣算法

CBOW中,判斷上下文詞(context)與目標詞(target)是否爲匹配的一對,如果是一對,則是正樣本,如果不是一對,則是負樣本.

去一段長度爲1的線段,分爲|V|份,每份的長度按詞頻的不同而有所不同。且長度的計算採用了一種「平滑」策略,能夠讓低頻詞多一些出場機會,高頻詞貢獻一些出場機會。
在這裏插入圖片描述
在採樣前,我們將這段長度爲1的線段劃分成M等份,這裏M>>V。這樣只需產生0,m1,…, m M m_M 的之間的一個整數隨機數,就可以採樣出一個詞。
在這裏插入圖片描述

word2vec 中的負採樣
摘抄自: http://www.imooc.com/article/41635