TF-IDF文本去重學習(TF-IDF和simhash)

鑑於每次面試都會問這個,還是總結一下吧,畢竟沒壞處 TF-IDF 我們是用tf-idf進行文本去重的,其實是用tf-idf將兩篇文章的關鍵詞提取處出來,然後比對兩篇文章的關鍵詞,大於某個閾值,則判定爲兩篇文章相似 TF爲詞頻,算法爲:這個詞出現的次數 除以 這個文章的總詞數 公式如下: IDF爲逆文檔頻率,如果這個詞在每篇文章中都有過,那麼他的IDF就比較小,可以用它避免那些停用詞的影響,算法爲:
相關文章
相關標籤/搜索