word2vec 介紹

1.背景 在NLP中,傳統算法通常使用one-hot形式表示一個詞,存在以下問題: 1)維度爆炸,詞表通常會非常大,導致詞向量維度也會非常大。 2)損失語義信息,one hot隨機給每個詞語進行編號映射,無法表示詞語之間的關係。 所以word embeding的優勢如下: 1)將詞語映射成一個固定維度的向量,節省空間。 2)詞向量可能會具備一定的語義信息,將相似的詞語放到相近的向量空間(比如香蕉和
相關文章
相關標籤/搜索