NLTK自然語言處理(四)生成特徵向量與文本相似度

文章目錄 生成對應特徵向量 生成對應特徵向量 幾種文本特徵向量化方法 1.詞集模型:one-hot編碼向量化文本(統計各詞在文本中是否出現) 2.詞袋模型:文檔中出現的詞對應的one-hot向量相加(統計各詞在文本中出現次數,在詞集模型的基礎上。) 3.詞袋模型+IDF:TFIDF向量化文本(詞袋模型+IDF值,考慮了詞的重要性) 4.N-gram模型:考慮了詞的順序 5.word2vec模型:使
相關文章
相關標籤/搜索