TF-IDF原理及使用

1、什麼是TF-IDF TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆文件頻率) 簡單來說:一個詞語在一篇文章中出現次數越多,同時在所有文檔中出現次數越少,越能夠代表本篇文章。 詞頻(term frequency,TF)指一個詞語在該文件中出現的次數。這個數字通常會被歸一化---詞頻除以文章總詞數。 注意:一些通用的詞語對於主題並沒有太大
相關文章
相關標籤/搜索