NLTK自然語言處理（四）生成特徵向量與文本相似度

時間 2021-07-12

原文原文鏈接

文章目錄生成對應特徵向量生成對應特徵向量幾種文本特徵向量化方法 1.詞集模型：one-hot編碼向量化文本（統計各詞在文本中是否出現） 2.詞袋模型：文檔中出現的詞對應的one-hot向量相加（統計各詞在文本中出現次數，在詞集模型的基礎上。） 3.詞袋模型+IDF：TFIDF向量化文本（詞袋模型+IDF值，考慮了詞的重要性） 4.N-gram模型：考慮了詞的順序 5.word2vec模型：使