2、TF-IDF和BM25

這兩者計算的都是文檔和文本之間的相似度,如果是兩個短文本貌似也可以。 1、TF-IDF = TF * IDF       假設文本是「我怎麼這麼帥氣」,4個詞,第一個詞「我」, 文檔1中一共有10個詞,「我」有2次,這個詞的詞頻都是2,這就是TF       第一個詞「我」,在所有文檔中,有「我」這個詞的文檔數是m,文檔總數是n,則IDF = log(n/(m+1))       所有詞疊加就是這
相關文章
相關標籤/搜索