算法----TF-IDF(加權)

TF-IDF有兩層意思,一層是"詞頻"(Term Frequency,縮寫爲TF),另一層是"逆文檔頻率"(Inverse Document Frequency,縮寫爲IDF)是一種用於信息檢索與數據挖掘的常用加權技術,常用於挖掘文章中的關鍵詞。 TF=(某詞在文檔中出現的次數/文檔的總詞量) IDF=loge(文檔總數/包含該詞的文檔數+1) 一、TF-IDF算法步驟 算法過程:先計算出文檔中每
相關文章
相關標籤/搜索