讀《深刻理解Elasticsearch》點滴-查詢評分

  1. 計算文檔得分的因子:
    • 文檔權重(document boost):索引期賦予某個文檔的權重值
    • 字段權重(field boost):查詢期賦予某個文檔的權重值
    • 協調因子(coord):基於文檔中詞項個數的協調因子,一個文檔命中率查詢中的詞項越多,得分越高
    • 逆文檔頻率(inverse document frequency):一個基於詞項的因子,用來告訴評分公式該詞項還有多麼罕見,評分公式利用該因子,爲包含罕見詞項的文檔加權
    • 長度範數(length norm):每字段的基於詞項個數的歸一化因子(在索引期間被計算並存儲在索引中)。一個字段包含的詞項數越多,該因子的權重就越低,意味着lucene的評分公式更」喜歡「包含更少詞項的字段。(我的理解:文章越長,用的詞彙五花八門,得分較少)
    • 詞頻(term frequency):一個基於詞項的因子,用來表示一個詞在某個文檔中出現了多少次。詞頻越高,文檔得分越高
    • 查詢範數(quern norm):一個基於查詢的歸一化因子,它等於查詢中詞項權重的平方和。查詢範數使得不一樣查詢的得分能相互比較,儘管這種比較一般是困難和不可行的。
  2. lucene默認的TF/IDF評分公式,融合了布爾檢索模型和向量空間模型。
  3. 更高得分的特色:
    • 越罕見的詞項被匹配上
    • 文檔字段越短
    • 權重越高(不管是索引期間仍是查詢期間賦予的權重值)
  4. 計算公式

相關文章
相關標籤/搜索