word2vec算法理解和數學推導

從字面意思就可以理解word2vec是把文本轉換成向量,那麼文本如何轉換成向量呢,最簡單的方法大家都會想到獨熱編碼,但是獨熱編碼的缺點也很明顯,首先獨熱編碼向量是正交的,任何兩個獨熱編碼相乘都等於0,所以無法通過任何的計算來得到兩個詞的相似度;還有一個原因就是維度過大,比如100000個詞彙用獨熱編碼表示成向量,就會有100000個維度,簡直就是維度災難。所以一般來說,在詞語向量化的時候都不使用獨
相關文章
相關標籤/搜索