看完這篇還不會 Elasticsearch 搜索,那我就哭了！

時間 2020-03-18

原文原文鏈接

本文主要介紹 ElasticSearch 搜索相關的知識，首先會介紹下 URI Search 和 Request Body Search，同時也會學習什麼是搜索的相關性，如何衡量相關性。html

Search API

咱們能夠把 ES 的 Search API 分爲兩大類，第一類是 URI Search，用 HTTP GET 的方式在 URL 中使用查詢參數已達到查詢的目的；另外一類爲 Request Body Search，可使用 ES 提供的基於 JSON 格式的格式更加完備的查詢語言 Query DSL（Domain Specific Language）正則表達式

語法	範圍
/_search	集羣上全部的索引
/jvm/_search	jvm
/jvm,sql/_search	jvm 和 sql
/jvm*/_search	以 jvm 開頭的索引

在查詢的時候須要經過 _search 來標明這個請求爲搜索請求，同時能夠指定 index，也能夠指定多個 index，也可使用通配符的方式對 index 進行搜索。算法

下面來看下 URI Search：sql

URI Search

GET /users/_search?q=username:wupxless

URI Search 使用的是 GET 方式，其中 q 指定查詢語句，語法爲 Query String Syntax，是 KV 鍵值對的形式；上面的請求表示對 username 字段進行查詢，查詢包含 wupx 的全部文檔。jvm

URI Search 有不少參數能夠指定，除了 q 還有以下參數：elasticsearch

df：默認字段，不指定時會對全部字段進行查詢
sort：根據字段名排序
from：返回的索引匹配結果的開始值，默認爲 0
size：搜索結果返回的條數，默認爲 10
timeout：超時的時間設置
fields：只返回索引中指定的列，多個列中間用逗號分開
analyzer：當分析查詢字符串的時候使用的分詞器
analyze_wildcard：通配符或者前綴查詢是否被分析，默認爲 false
explain：在每一個返回結果中，將包含評分機制的解釋
_source：是否包含元數據，同時支持 _source_includes 和 _source_excludes
lenient：若設置爲 true，字段類型轉換失敗的時候將被忽略，默認爲 false
default_operator：默認多個條件的關係，AND 或者 OR，默認爲 OR
search_type：搜索的類型，能夠爲 dfs_query_then_fetch 或 query_then_fetch，默認爲 query_then_fetch

在瞭解了基本的查詢參數後，讓咱們先來看下什麼是指定字段查詢和什麼是泛查詢？ide

好比 GET /movies/_search?q=2012&df=title 這個例子就是指定字段查詢，一樣 GET /movies/_search?q=title:2012 也能夠達到指定字段查詢的目的。學習

再舉一個泛查詢的例子 GET /movies/_search?q=2012，會對全部字段進行查詢。測試

接下來，看下什麼是 Term Query 和 Phrase Query：

好比：Beautiful Mind 等效於 Beautiful OR Mind；"Beautiful Mind"等效於 Beautiful AND Mind，另外還要求先後順序保存一致。

當爲 Term Query 的時候，就須要把這兩個詞用括號括起來，請求爲 GET /movies/_search?q=title:(Beautiful Mind)，意思就是查詢 title 中包括 Beautiful 或者 Mind。

當爲 Phrase Query 的時候就須要用引號包起來，請求爲 GET /movies/_search?q=title:"Beautiful Mind"。

另外還支持布爾操做，好比 AND（&&）、OR（||）、NOT（！），須要注意大寫，不能小寫。

在這裏舉一個 NOT 的例子：GET /movies/_search?q=title:(Beautiful NOT Mind)，這個請求表示查詢 title 中必須包括 Beautiful 不能包括 Mind 的文檔。

URI Search 還包括一些範圍查詢和數學運算符號，好比指定電影的年份大於 1994：GET /movies/_search?q=year:>=1994。

URI Search 還支持通配符查詢（查詢效率低，佔用內存大，不建議使用，特別是放在最前面），還支持正則表達式，以及模糊匹配和近似查詢。

URI Search 好處就是操做簡單，只要寫個 URI 就能夠了，方便測試，可是 URI Search 只包含一部分查詢語法，不能覆蓋全部 ES 支持的查詢語法。

所以讓咱們來看下 Request Body Search：

Request Body Search

在 ES 中一些高階用法只能在 Request Body 裏作，因此咱們儘可能使用 Request Body Search，它支持 GET 和 POST 方式對索引進行查詢，須要指定操做的索引名稱，一樣也要經過 _search 來標明這個請求爲搜索請求，咱們能夠在請求體中使用 ES 提供的 DSL，下面這個例子就是簡單的 Query DSL：

POST /users/_search
{
	"query": {
		"match_all": {}
	}
}

上面的請求的意思就是把因此的結果都返回。

也能夠在 Request Body 中加入 from 和 size 參數以達到分頁的效果：

POST /movies/_search
{
  "from":10,
  "size":20,
  "query":{
    "match_all": {}
  }
}

默認 from 從 0 開始，返回 10 個結果，獲取靠後的翻頁成本較高。

若是想對搜索的結果排序也能夠在請求體中加上 sort 參數：

POST /movies/_search
{
  "sort":[{"year":"desc"}],
  "query":{
    "match_all": {}
  }
}

最好在「數字型」與「日期型」字段上排序，由於對於多值類型或者分析過的字段排序，系統會選一個值，沒法得知該值。

若是 _source 的數據量比較大，有些字段也不須要拿到這個信息，那麼就能夠對它的 _source 進行過濾，把須要的信息加到 _source 中，好比如下請求就是 _source 中只返回 title：

POST /movies/_search
{
  "_source":["title"],
  "query":{
    "match_all": {}
  }
}

若是 _source 沒有存儲，那就只返回匹配的文檔的元數據，同時 _source 也支持使用通配符。

接下來介紹下腳本字段，腳本字段可使用 ES 中的 painless 的腳本去算出一個新的字段結果。

GET /movies/_search
{
  "script_fields": {
    "new_field": {
      "script": {
        "lang": "painless",
        "source": "doc['year'].value+'_hello'"
      }
    }
  },
  "query": {
    "match_all": {}
  }
}

這個例子中就使用 painless 把電影的年份和 _hello 進行拼接造成一個新的字段 new_field。

在上面咱們剛介紹了在 URI Search 中的 Term Query 和 Phrase Query，接下來讓咱們看下 Request Body 中是怎麼作的吧！

在此以前先來插播一條小知識-字段類查詢，字段類查詢主要包括如下兩類：

全文匹配：針對 text 類型的字段進行全文檢索，會對查詢語句先進行分詞處理，如 match，match_phrase 等 query 類型
單詞匹配：不會對查詢語句作分詞處理，直接去匹配字段的倒排索引，如 term，terms，range 等 query 類型

好了，如今咱們來接着往下看。

能夠在 Request Body 中使用在 query match 的方式把信息填在裏面，咱們先來看下 Match Query，好比下面這個例子，填入兩個單詞，默認是 wupx or huxy 的查詢條件，若是想查詢二者同時出現，能夠經過加 "operator": "and" 來實現。

POST /users/_search
{
  "query": {
    "match": {
      "title": "wupx huxy"
      "operator": "and"
    }
  }
}

咱們經過一張圖來看下 Match Query 的流程：

首先對查詢語句進行分詞，分紅 wupx 和 huxy 兩個 Term，而後 ES 會拿到 username 的倒排索引，對 wupx 和 huxy 去進行匹配的算分，好比 wupx 對應的文檔是 1 和 2，huxy 對應的文檔爲 1，而後 ES 會利用算分算法（好比 TF/IDF 和 BM25，BM25 模型 5.x 以後的默認模型）列出文檔跟查詢的匹配得分，而後 ES 會對 wupx huxy 的文檔的得分結果作一個彙總，最終根據得分排序，返回匹配文檔。

Request Body 中還支持 Match Phrase 查詢，但在 query 條件中的詞必須順序出現的，能夠經過 slop 參數控制單詞間的間隔，好比加上 "slop" :1，表示中間能夠有一個其餘的字符。

POST /movies/_search
{
  "query": {
    "match_phrase": {
      "title":{
        "query": "one love"
        "slop":1
      }
    }
  }
}

瞭解完 Match Query，讓咱們再來看下 Term Query：

若是不但願 ES 對輸入語句做分詞處理的話，能夠用 Term Query，將查詢語句做爲整個單詞進行查詢，使用方法和 Match 相似，只須要把 match 換爲 term 就能夠了，以下所示：

POST /users/_search
{
  "query": {
    "term": {
        "username":"wupx"
    }
  }
}

Terms Query 顧名思義就是一次能夠傳入多個單詞進行查詢，關鍵詞是 terms，以下所示：

POST /users/_search
{
  "query": {
    "terms": {
      "username": [
        "wupx",
        "huxy"
      ]
    }
  }
}

另外 DSL 還支持特定的 Query String 的查詢，好比指定默認查詢的字段名 default_field 就和前面介紹的 df 是同樣的，在 query 中也可使用 AND 來實現一個與的操做。

POST users/_search
{
  "query": {
    "query_string": {
      "default_field": "username",
      "query": "wupx AND huxy"
    }
  }
}

下面來看下 Simple Query String Query，它其實和 Query String 相似，可是會忽略錯誤的查詢語法，同時只支持部分查詢語法，不支持 AND OR NOT，會看成字符串處理，Term 之間默認的關係是 OR，能夠指定 default_operator 來實現 AND 或者 OR，支持用 + 替代 AND，用 | 替代 OR，用 - 替代 NOT。

下面這個例子就是查詢 username 字段中同時包含 wu 和px 的請求：

{
  "query": {
    "simple_query_string": {
      "query": "wu px",
      "fields": ["username"],
      "default_operator": "AND"
    }
  }
}

到此爲止，咱們就對 DSL 作了個簡單介紹，更高階的 DSL 會在之後的文章中進行介紹。

而後，咱們來看下請求後返回的結果 Response 長什麼樣吧！

Response

{
  "took" : 1,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 1,
      "relation" : "eq"
    },
    "max_score" : 0.9808292,
    "hits" : [
      {
        "_index" : "users",
        "_type" : "_doc",
        "_id" : "1",
        "_score" : 0.9808292,
        "_source" : {
          "username" : "wupx",
          "age" : "18"
        }
      }
    ]
  }
}

其中 took 表示花費的時間；total 表示符合條件的總文檔數；hits 爲結果集，默認是前 10 個文檔；_index 爲索引名；_id 爲文檔 id；_score 爲相關性評分；_source 爲文檔的原始信息。

搜索的相關性（Relevance）

那麼咱們平時在搜索的時候，好比輸入小米手機，會返回不少結果，從用戶角度關心的有：是否找到全部相關的內容，有多少不相關的內容被返回了，好比輸入的小米手機的時候不該該返回糧食的小米給用戶，同時文檔應該按照打分的方式進行排序，也就是搜索結果中的 _score，另外，搜索引擎須要結合業務需求，平衡結果排名。

如何評估相關性？

在信息檢索學中對相關性是有指標去評估的，第一個是查準率（Precision），具體含義是儘量返回較少的無關文檔給用戶；第二個爲查全率（Recall），也就是儘可能返回較多的相關文檔；第三個爲是否可以按照相關度進行排序（Ranking）。

下面經過一張圖來對查準率和查全率有一個更形象的理解：

其中黃色的三角形表明不相關的內容，綠色的圓表明相關的內容；在搜索結果中，黃色的三角形起名爲 False Positive（納僞，簡寫 fp），一般稱做誤報，綠色的圓起名爲 True Positive（納真，簡寫 tp）；在沒有被搜索到的範圍中，綠色的圓的起名爲 False Negatives（去真，簡寫 fn），也常稱做漏報，黃色的三角形起名爲 True Negative（去僞，簡寫 tn）。

那麼咱們能夠獲得：

查準率等於正確的搜索結果除以所有返回的結果，即 Precision = tp / ( tp + fp )
查全率等於正確的搜索結果除以全部應該返回的結果，即 Recall = tp / ( tp + fn )

在 ES 中提供了許多的查詢相關參數來改善搜索的 Precision 和 Recall。

總結

本文主要簡單介紹了 ES Search API 的兩種形式，學習了 URI Search 的基本方法，還學習了 Term Search 和 Phrase Search 的區別，同時介紹了什麼叫搜索相關性，以及如何評估相關性。

參考文獻

《Elasticsearch技術解析與實戰》

Elastic Stack從入門到實踐

Elasticsearch頂尖高手系列

Elasticsearch核心技術與實戰

https://www.elastic.co/guide/en/elasticsearch/reference/7.1/search.html

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。