讀《深刻理解Elasticsearch》點滴-查詢評分

時間 2019-12-09

標籤深刻理解 elasticsearch 點滴查詢評分欄目日誌分析简体版

原文原文鏈接

計算文檔得分的因子：
- 文檔權重（document boost）：索引期賦予某個文檔的權重值
- 字段權重（field boost）：查詢期賦予某個文檔的權重值
- 協調因子（coord）：基於文檔中詞項個數的協調因子，一個文檔命中率查詢中的詞項越多，得分越高
- 逆文檔頻率（inverse document frequency）：一個基於詞項的因子，用來告訴評分公式該詞項還有多麼罕見，評分公式利用該因子，爲包含罕見詞項的文檔加權
- 長度範數（length norm）：每字段的基於詞項個數的歸一化因子（在索引期間被計算並存儲在索引中）。一個字段包含的詞項數越多，該因子的權重就越低，意味着lucene的評分公式更」喜歡「包含更少詞項的字段。（我的理解：文章越長，用的詞彙五花八門，得分較少）
- 詞頻（term frequency）：一個基於詞項的因子，用來表示一個詞在某個文檔中出現了多少次。詞頻越高，文檔得分越高
- 查詢範數（quern norm）：一個基於查詢的歸一化因子，它等於查詢中詞項權重的平方和。查詢範數使得不一樣查詢的得分能相互比較，儘管這種比較一般是困難和不可行的。
lucene默認的TF/IDF評分公式，融合了布爾檢索模型和向量空間模型。
更高得分的特色：
- 越罕見的詞項被匹配上
- 文檔字段越短
- 權重越高（不管是索引期間仍是查詢期間賦予的權重值）
計算公式

相關標籤/搜索