TF-IDF算法

TF-IDF算法 1.找出各自文章的關鍵詞併合成一個詞集合 2.求出兩個詞集合的並集(詞包) 3.計算各自詞集的詞頻並把詞頻向量化 4.帶入向量計算模型就能夠求出文本類似度算法 詞頻TF,詞頻是一個詞語在文章或句子中出現的次數。若是一個詞很重要,很明顯是應該在一個文章中出現不少次的 反文檔頻率IDF=log(文章總數/含該詞的文章數+1) 1.爲何+1?是爲了處理分母爲0的狀況。假如全部的文章都不
相關文章
相關標籤/搜索