TF-IDF理解

TF-IDF算法(Term Frequency-Inverse Document Frequency ,詞頻-逆文檔頻次算法)是一種基於統計的計算方法。 TF算法: 該算法用於統計一個詞在一篇文檔中出現的頻次,缺點是沒有考慮到詞對文檔的區分能力,計算公式(採用了歸一化): 分子表示詞i在文檔j中出現的次數,分母表示文檔j的總詞數。 IDF算法: 該算法用於統計一個詞在文檔集的多少個文檔中出現,也就
相關文章
相關標籤/搜索