這篇文章主要介紹了計算TF-IDF的不一樣方法實現,主要有三種方法:python
之因此作了這方面的總結是由於最近在研究word2vec,而後涉及到了基於word2vec的文本表示方法。你用word2vec訓練好的模型能夠獲得詞的向量,而後咱們能夠利用這些詞向量表示句子向量。算法
1. 通常處理方法是把句子裏涉及到的單詞用word2vec模型訓練獲得詞向量,而後把這些向量加起來再除以單詞數,就能夠獲得句子向量。這樣處理以後能夠拿去給分類算法(好比LogisticRegression)訓練,從而對文本進行分類。工具
2. 還有一種是把句子裏的每一個單詞的向量拼接起來,好比每一個單詞的維度是1*100spa
一句話有30個單詞,那麼如何表示這句話的向量呢?get
把單詞拼接來,最終獲得這句話的向量的維度就是30*100維io
3. 我想作的是把句子裏全部的單詞用word2vec模型訓練獲得詞向量,而後把這些向量乘以咱們以前獲得的tfidf值,再把它們加起來除以單詞數,就能夠獲得句子向量。也就是結合tfidf給單詞加上一個權重,評判一個單詞的重要程度。方法
4. 最後發現gensim和sklearn都不能知足個人需求,用python的方法作了一個。im
詳情請你們看這裏總結
使用不一樣工具計算的tf-idf值對比 word