特徵權重量化 TF-IDF 用於信息檢索和數據挖掘的加權技術

 

TFIDF其實是:TF * IDF,TF詞頻(Term Frequency),IDF逆向文件頻率(Inverse Document Frequency)。TF表示詞條在文檔d中出現的頻率。IDF的主要思想是:若是包含詞條t的文檔越少,也就是n越小,IDF越大,則說明詞條t具備很好的類別區分能力。htm

 

TFIDF的主要思想是:若是某個詞或短語在一篇文章中出現的頻率TF高,而且在其餘文章中不多出現,則認爲此詞或者短語具備很好的類別區分能力,適合用來分類。文檔

TF是指在一個文檔中出現的詞的頻率,詞的次數初一全部的詞數 get

  而IDF是全部的文檔中出現該詞的次數越多,則權重就越小。。逆向文件頻率(inverse document frequency,IDF)是一個詞語廣泛重要性的度量。某一特定詞語的IDF,能夠由總文件數目除以包含該詞語之文件的數目,再將獲得的商取對數獲得:文件

最後的相關性的計算 view

,上述相關性計算的公式就由詞頻的簡單求和變成了加權求和,即 TF1*IDF1 + TF2*IDF2 +... + TFN*IDFN。。vi

相關文章
相關標籤/搜索