詞向量—Word2Vec入門及Gensim實踐

在機器學習領域,語音識別和圖像識別都比較容易做到。語音識別的輸入數據可以是音頻頻譜序列向量所構成的matrix,圖像識別的輸入數據是像素點向量構成的矩陣。但是文本是一種抽象的非結構化的數據,顯然不能直接把文本數據餵給機器當做輸入,因此這裏就需要對文本數據進行處理。 Word2vec是google在2013年推出的一個詞向量實現工具(注意,不是詞向量模型),它的特點是將所有的詞向量化,這樣詞與詞之間
相關文章
相關標籤/搜索