文本相似度算法

文本相似度算法 1.信息檢索中的重要發明TF-IDF 1.1TF Term frequency即關鍵詞詞頻,是指一篇文章中關鍵詞出現的頻率,比如在一篇M個詞的文章中有N個該關鍵詞,則 (公式1.1-1) 爲該關鍵詞在這篇文章中的詞頻。 1.2IDF Inverse document frequency指逆向文本頻率,是用於衡量關鍵詞權重的指數,由公式 (公式1.2-1) 計算而得,其中D爲文章總數
相關文章
相關標籤/搜索