TF-IDF具體算法和原理

時間 2020-10-23

標籤算法函數 spa code orm blog 排序 token 文檔欄目 Java 简体版

原文原文鏈接

TF-IDF算法

TF-IDF的具體實現

　　jieba，NLTK，sklearn，gensim等程序包均可以實現TF-IDF的計算。除算法細節上有差別外，更多的是數據輸入/輸出格式上的不一樣。

使用jieba實現TD-IDF算法

　　輸出結果會自動按照TF-IDF值降序排列，而且直接給出的是詞條而不是字典ID，便於閱讀使用。

　　可在計算TF-IDF時直接完成分詞，並使用停用詞表和自定義詞庫，很是方便。（直接傳入句子，不須要提早切分詞）

　　有默認的IDF語料庫，能夠不訓練模型，直接進行計算

　　以單個文本爲單位進行分析。

　　jieba核心是拿到關鍵詞自己

jieba.analyse.extract_tags(

sentence 爲待提取的文本
topK = 20 : 返回幾個 TF/IDF 權重最大的關鍵詞
withWeight = False : 是否一併返回關鍵詞權重值
allowPOS = () : 僅包括指定詞性的詞，默認值爲空，即不篩選
)
jieba.analyse.set_idf_path(file_name)

jieba.analyse.set_stop_words(file_name)

關鍵詞提取時使用自定義中止詞（Stop Words）語料庫

勞動防禦 13.900677652

生化學 13.900677652

奧薩貝爾 13.900677652

奧薩貝爾 13.900677652

考察隊員 13.900677652

jieba.analyse.TFIDF(idf_path = None)

新建 TFIDF模型實例
idf_path : 讀取已有的TFIDF頻率文件（即已有模型）
使用該實例提取關鍵詞：TFIDF實例.extract_tags()

# 使用jieba提取關鍵詞，
import jieba
import jieba.analyse

# 注意：函數時在使用默認的TFIDF模型進行分析
t = jieba.analyse.extract_tags(chapter.txt[1])
print(t)  
# ['楊鐵心', '包惜弱', '郭嘯天', '顏烈', '丘處機', '武官', '楊二人', '官兵', ...]
print("返回權重值")
# 要求返回權重值
t = jieba.analyse.extract_tags(chapter.txt[1],withWeight=True)
print(t)
# [('楊鐵心', 0.21886511509515091), ('包惜弱', 0.1685852913570757), ('郭嘯天', 0.09908082913091291),...]

按照關鍵詞評分的重要性排序的結果。

　　t = jieba.analyse.extract_tags(chapter.txt[1])
　　print(t) 　　# ['楊鐵心', '包惜弱', '郭嘯天', '顏烈', '丘處機', '武官', '楊二人', '官兵', ...]

若是想要進一步知道關鍵詞的具體評分值，加上withWeight=True

　　# 要求返回權重值 　　t = jieba.analyse.extract_tags(chapter.txt[1],withWeight=True) 　　print(t) 　　# [('楊鐵心', 0.21886511509515091), ('包惜弱', 0.1685852913570757), ('郭嘯天', 0.09908082913091291),...]


應用自定義詞典改善分詞效果

# 應用自定義詞典改善分詞效果
jieba.load_userdict('金庸小說詞庫.txt') # dict爲自定義詞典的路徑

# 在TFIDF計算中直接應用停用詞表
jieba.analyse.set_stop_words('停用詞.txt')

Tfres = jieba.analyse.extract_tags(chapter.txt[1],withWeight=True)
print(Tfres[:10])
# [('楊鐵心', 0.24787133516800222), ('包惜弱', 0.1909279203321098), ('郭嘯天', 0.11221202335308209)...]

　使用自定義的TFIDF頻率文件

#-------------------------------------------------------------------------------------------------
# 結巴分詞有一個默認的TFIDF權重表，或者說有一個現成的模型，能夠用該模型直接用於這個語料的計算中。可是這樣的準確率不高

# 正確的作法是：咱們應該把射鵰英雄傳全書拿來，作出一個TFIDF的權重頻率模型，而後把它讀進來，
# 以下，咱們是用自定義的TFIDF頻率文件‘idf.txt.big’

# 使用自定義TFIDF頻率文件
jieba.analyse.set_idf_path('idf.txt.big')
TFres1 = jieba.analyse.extract_tags(chapter.txt[1],withWeight=True)
print('使用自定義TFIDF頻率文件')
print(TFres1[:10])

# [('楊鐵心', 0.24787133516800222), ('包惜弱', 0.1909279203321098), ('郭嘯天', 0.11221202335308209)...]

使用sklearn實現TF-IDF算法

sklearn輸出格式爲矩陣，直接爲後續的sklearn建模服務
須要先使用背景語料庫進行模型訓練。
結果給出的是字典ID而不是具體的詞條，直接閱讀比較困難
class sklearn.feature_extraction.text.TfidfTransformer()
參數基本和上面同樣

# 使用sklearn實現TD-IDF算法

'''
sklearn輸出格式爲矩陣，直接爲後續的sklearn建模服務
須要先使用背景語料庫進行模型訓練。
結果給出的是字典ID而不是具體的詞條，直接閱讀比較困難
class sklearn.feature_extraction.text.TfidfTransformer()
參數基本和上面同樣
'''

from sklearn.feature_extraction.text import TfidfTransformer

# sklearn不能直接切中文句子，因此咱們須要提早作好分詞，用空格分開 ，（取前5章）
txtlist = [" ".join(m_cut(w)) for w in chapter.txt.iloc[:5]]

vectorizer = CountVectorizer()

X = vectorizer.fit_transform(txtlist)# 將文本中的詞語轉換爲詞頻矩陣

transformer = TfidfTransformer()

tfifd = transformer.fit_transform(X) #基於詞頻矩陣X計算TF-IDF值
print("*"*100)
print(tfifd)
'''
(0, 11621)    0.0056535238362054275
  (0, 11614)    0.0056535238362054275
  (0, 11613)    0.0056535238362054275
  (0, 11612)    0.010775737599046372
  .........
'''


print("*"*100)
t = tfifd.toarray()
print(t)
'''
[[0.         0.         0.         ... 0.00565352 0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.01961759 0.         0.         ... 0.         0.         0.        ]
 [0.         0.00666239 0.         ... 0.         0.         0.        ]
 [0.         0.         0.00652369 ... 0.         0.00652369 0.00652369]]
'''

print("*"*100)
# 將稀疏矩陣轉換爲標準矩陣
t = tfifd.todense()
print(t)
'''
[[0.         0.         0.         ... 0.00565352 0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.01961759 0.         0.         ... 0.         0.         0.        ]
 [0.         0.00666239 0.         ... 0.         0.         0.        ]
 [0.         0.         0.00652369 ... 0.         0.00652369 0.00652369]]
'''


print(t.shape)
#(5, 11624)

print("字典長度：",len(vectorizer.vocabulary_))
# 字典長度： 11624
print("字典：")
print(vectorizer.vocabulary_)
'''
{'第一回': 8722, '風雪': 11320, '驚變': 5284, '錢塘江': 10872, '浩浩': 7520, '江水': 7363, '日日夜夜': 6537, ....
顯然，直接閱讀的話，很難，這只是方便下一步的建模
'''

使用gensim實現TF-IDF算法

　　輸出格式爲list，目的也是爲後續的建模分析服務。

　　須要先使用背景語料庫進行模型訓練。

　　結果中給出的是字典ID，而不是具體的詞條（jieba給出的是具體詞條），直接閱讀結果比較困難。

# 使用gensim實現TF-IDF算法
'''
輸出格式爲list, 目的也是爲了後續的建模服務
須要先使用背景語料庫進行模型訓練
結果中給出的是字典ID，而不是具體詞條，直接閱讀比較困難

'''

# 文檔分詞以及預處理 (取前5章)   gensim能夠直接使用切好的分詞列表（list)，而沒必要用空格隔開
chaplist = [m_cut(w) for w in chapter.txt.iloc[:5]]
print("*"*100)
print(chaplist)
# [['第一回', '風雪', '驚變', '錢塘江', '浩浩', '江水', '日日夜夜', '無窮', '無休', '浙...
#導入2個模塊，一個是語料庫，一個是建模的
from gensim import corpora, models

# 生成文檔對應的字典和bow稀疏向量
dictionary = corpora.Dictionary(chaplist)
# 語料庫  將chaplist中每一個成員都轉爲bow稀疏向量
corpus = [dictionary.doc2bow(text) for text in chaplist] #仍爲 list in list
print("&"*100)
print(corpus)
# [詞ID，詞頻]   直接閱讀很難受
# [[(0, 1), (1, 32), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1),...]]

# 建模
# 針對corpus創建TD-IDF模型，這是個總模型，包含了對整個文檔建模的背景信息
tfifd_model = models.TfidfModel(corpus)

# 對所需文檔計算TF-IDF結果   用剛剛創建的tfidf_model模型對corpus語料進行計算
corpus_tfidf = tfifd_model[corpus]

print("*"*100)
print(corpus_tfidf)
# <gensim.interfaces.TransformedCorpus object at 0x1F5554C0>

# 列出所需文檔的TF-IDF計算結果   輸出第四章結果
t = corpus_tfidf[3]
print(t)
# List結果，，[詞ID，詞權重]
# [(11, 0.00404720107824102), (12, 0.003535871261991013), (13, 0.0017679356309955065),

# 列出字典內容
# 這樣能夠根據詞ID，來對應上面的TF-IDF計算結果
print(dictionary.token2id)
# {'一兩天': 0, '一個': 1, '一個個': 2, '一個二十': 3, '一個多': 4, '一個月': 5, '一了百了': 6, '一事無成': 7, '一人': 8, '一件': 9,