文本相似度(tf-idf 和 bm25的算法講解)

1.關於tf-idf: (使用tf-idf和向量空間模型) TF: 文檔 j 中的關鍵詞 i 的歸一化詞頻值 描述某一詞在一篇文檔中出現的頻繁程度。 (爲了阻止更長的文檔得到更高的相關度權值,必須進行文檔長度的某種歸一化)   TF=freq(i,j) / maxOthers(i,j)      ###(maxxOthers = max(freq(z,j))  IDF : 逆文檔頻率。 降低所有文
相關文章
相關標籤/搜索