使用不一樣的方法計算TF-IDF值

摘要

這篇文章主要介紹了計算TF-IDF的不一樣方法實現,主要有三種方法:python

  • 用gensim庫來計算tfidf值
  • 用sklearn庫來計算tfidf值
  • 用python手動實現tfidf的計算

總結

之因此作了這方面的總結是由於最近在研究word2vec,而後涉及到了基於word2vec的文本表示方法。你用word2vec訓練好的模型能夠獲得詞的向量,而後咱們能夠利用這些詞向量表示句子向量。算法


 

1. 通常處理方法是把句子裏涉及到的單詞用word2vec模型訓練獲得詞向量,而後把這些向量加起來再除以單詞數,就能夠獲得句子向量。這樣處理以後能夠拿去給分類算法(好比LogisticRegression)訓練,從而對文本進行分類。工具


 

2. 還有一種是把句子裏的每一個單詞的向量拼接起來,好比每一個單詞的維度是1*100spa

一句話有30個單詞,那麼如何表示這句話的向量呢?get

把單詞拼接來,最終獲得這句話的向量的維度就是30*100維io


 

3. 我想作的是把句子裏全部的單詞用word2vec模型訓練獲得詞向量,而後把這些向量乘以咱們以前獲得的tfidf值,再把它們加起來除以單詞數,就能夠獲得句子向量。也就是結合tfidf給單詞加上一個權重,評判一個單詞的重要程度。方法


 

4. 最後發現gensim和sklearn都不能知足個人需求,用python的方法作了一個。im


 

詳情請你們看這裏總結

使用不一樣工具計算的tf-idf值對比 word

https://www.zybuluo.com/lianjizhe/note/1212780

相關文章
相關標籤/搜索