使用不一樣的方法計算TF-IDF值

時間 2019-12-13

標籤使用不一樣方法計算 idf 简体版

原文原文鏈接

摘要

這篇文章主要介紹了計算TF-IDF的不一樣方法實現，主要有三種方法：python

之因此作了這方面的總結是由於最近在研究word2vec，而後涉及到了基於word2vec的文本表示方法。你用word2vec訓練好的模型能夠獲得詞的向量，而後咱們能夠利用這些詞向量表示句子向量。算法

1. 通常處理方法是把句子裏涉及到的單詞用word2vec模型訓練獲得詞向量，而後把這些向量加起來再除以單詞數，就能夠獲得句子向量。這樣處理以後能夠拿去給分類算法(好比LogisticRegression)訓練，從而對文本進行分類。工具

2. 還有一種是把句子裏的每一個單詞的向量拼接起來，好比每一個單詞的維度是1*100spa

一句話有30個單詞，那麼如何表示這句話的向量呢？get

把單詞拼接來，最終獲得這句話的向量的維度就是30*100維io

3. 我想作的是把句子裏全部的單詞用word2vec模型訓練獲得詞向量，而後把這些向量乘以咱們以前獲得的tfidf值，再把它們加起來除以單詞數，就能夠獲得句子向量。也就是結合tfidf給單詞加上一個權重，評判一個單詞的重要程度。方法

4. 最後發現gensim和sklearn都不能知足個人需求，用python的方法作了一個。im

詳情請你們看這裏總結

使用不一樣工具計算的tf-idf值對比 word

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。