文本相似度（tf-idf 和 bm25的算法講解）

時間 2020-12-30

原文原文鏈接

1.關於tf-idf： (使用tf-idf和向量空間模型) TF：文檔 j 中的關鍵詞 i 的歸一化詞頻值描述某一詞在一篇文檔中出現的頻繁程度。（爲了阻止更長的文檔得到更高的相關度權值，必須進行文檔長度的某種歸一化） TF=freq(i,j) / maxOthers(i,j) ###(maxxOthers = max(freq(z,j)) IDF : 逆文檔頻率。降低所有文

>>阅读原文<<