ElasticSearch-查詢語句詳解

本文主要詳細介紹es中經常使用的查詢語句,以及使用的時候一些須要注意的事項

如對es不瞭解,建議先看 es基礎概念: juejin.im/post/5cdc07…json

url參數搜索

這種方式就是相似於get請求,將請求參數拼接到連接上,例GET /school/student/_search?參數,多個參數用&分開數組

查詢全部

命令:GET /school/student/_search緩存

返回:bash

{
  "took": 7, //查詢耗時,毫秒
  "timed_out": false, //是否超時,timeout 不是中止執行查詢,它僅僅是告知正在協調的節點返回到目前爲止收集的結果而且關閉鏈接
  "_shards": {
    "total": 5, //請求的分片數量,索引拆成了5個分片,因此對於搜索請求,會打到全部的primary shard
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 2, //符合條件的總條數,這裏查的是全部
    "max_score": 1, //匹配分數
    "hits": [ //數據
      {
        "_index": "school",
        "_type": "student",
        "_id": "2",
        "_score": 1,
        "_source": {
          "name": "houyi",
          "age": 23,
          "class": 2,
          "gender": "男"
        }
      },
      {
        "_index": "school",
        "_type": "student",
        "_id": "1",
        "_score": 1,
        "_source": {
          "name": "呂布",
          "age": 21,
          "class": 2,
          "gender": "男"
        }
      }
    ]
  }
}
複製代碼

多索引,多type搜索

在URL中指定特殊的索引和類型進行多索引,多type搜索elasticsearch

  1. /_search:在全部的索引中搜索全部的類型
  2. /school/_search:在 school 索引中搜索全部的類型
  3. /school,ad/_search:在 schoolad索引中搜索全部的類型
  4. /s*,a*/_search:在全部以ga開頭的索引中全部全部的類型
  5. /school/student/_search:在school索引中搜索student類型
  6. /school,ad/student,phone/_search:在schoolad索引上搜索studentphone類型
  7. /_all/student,phone/_search:在全部的索引中搜索studentphone類型

按條件查詢

命令:GET /school/student/_search?q=name:houyioop

查詢name是houyi的記錄post

更多查詢參數:性能

查詢DSL

elasticsearch提供了基於JSON的完整查詢DSL來定義查詢,DSL擁有一套查詢組件,這些組件能夠以無限組合的方式進行搭配,構建各類複雜的查詢優化

葉子語句

葉子語句:就像match語句,被用於將查詢的字符串與一個字段或多個字段進行對比(單個條件) 好比:ui

GET /ad/phone/_search
   {
     "query": {
       "match": {
         "name": "phone"
       }
     }
   }
複製代碼

複合查詢

用戶合併其餘查詢語句,好比一個bool語句,容許你在須要的時候組合其餘語句,包括mustmust_notshouldfilter語句(多條件組合查詢) 好比:

GET /ad/phone/_search
{
  "query": {
    "bool": {
      "must": [
        {"match": {
          "name": "phone"
        }}
      ]
      , "must_not": [
        {"match": {
          "color": "red"
        }}
      ]
      , "should": [
        {"match": {
          "price": 5000
        }}
      ]
      , "filter": {
          "term": {
            "label": "phone"
          }
      }
    }
  }
}
複製代碼

must:表示文檔必定要包含查詢的內容

must_not:表示文檔必定不要包含查詢的內容

should:表示若是文檔匹配上能夠增長文檔相關性得分

事實上咱們可使用兩種結構化語句: 結構化查詢query DSL和結構化過濾Filter DSL

  1. 結構化查詢query DSL

    用於檢查內容與條件是否匹配,內容查詢中使用的bool和match字句,用於計算每一個文檔的匹配得分,元字段_score表示匹配度,查詢的結構中以query參數開始來執行內容查詢

  2. 結構化過濾Filter DSL

    只是簡單的決定文檔是否匹配,內容過濾中使用的term和range字句,會過濾 調不匹配的文檔,而且不影響計算文檔匹配得分

    使用過濾查詢會被es自動緩存用來提升效率

原則上來講,使用查詢語句作全文本搜索或其餘須要進行相關性評分的時候,剩下的所有用過濾語句

新建一個稍微複雜的索引,添加三條文檔

PUT /ad/phone/1
{
  "name":"phone 8",
  "price": 6000,
  "color":"white",
  "ad":"this is a white phone",
  "label":["white","nice"]
}

PUT /ad/phone/2
{
  "name":"xiaomi 8",
  "price": 4000,
  "color":"red",
  "ad":"this is a red phone",
  "label":["white","xiaomi"]
}

PUT /ad/phone/3
{
  "name":"huawei p30",
  "price": 5000,
  "color":"white",
  "ad":"this is a white phone",
  "label":["white","huawei"]
}

複製代碼

查詢示例

1. 獲取全部

GET /ad/phone/_search
{
  "query": {
    "match_all": {}
  }
}
複製代碼

match_all匹配全部數據,返回的結果中元字段_score得分爲1

2. 分頁查詢,從第二條開始,查兩條(不要使用fromsize進行深度分頁,會有性能問題)

GET /ad/phone/_search
{
  "query": {
    "match_all": {}
  },
  "from": 1,
  "size": 2
}
複製代碼

這種分頁方式若是進行深度分頁,好比到100頁,每頁十條數據,它會從每一個分片都查詢出100*10條數據,假設有五個分片,就是5000條數據,而後在內存中進行排序,而後返回拍過序以後的集合中的第1000-1010條數據

3. 指定查詢出來的數據返回的字段

GET /ad/phone/_search
{
  "query": {
    "match_all": {}
  },
  "_source": ["name","price"]
}
複製代碼

返回的數據中只返回nameprice字段

4. ad字段中包含單詞white

GET /ad/phone/_search
{
  "query": {
    "match": {
      "ad": "white"
    }
  }
}
複製代碼

返回的結果中元字段_score有評分,說明使用query會計算評分

5. ad字段中包含單詞white,並按照價格升序排列

GET /ad/phone/_search
{
  "query": {
    "match": {
      "ad": "white"
    }
  }, 
  "sort": [
    {
      "price": {
        "order": "asc"
      }
    }
  ]
}
複製代碼

6. 價格字段大於5000

GET /ad/phone/_search
{
  "query": {
    "bool": {
      "filter": {
        "range": {
          "price": {
            "gt": 5000
          }
        }
      }
    }
  }
}
複製代碼

返回的結果中元字段_score字段等於0,沒評分,說明使用filter不會計算評分

7. ad字段中包含單詞white,價格字段大於5000

GET /ad/phone/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "ad": "white"
          }
        }
      ], 
      "filter": {
        "range": {
          "price": {
            "gt": 5000
          }
        }
      }
    }
  }
}
複製代碼

8. 查詢name字段包含單詞phone的文檔的數量

GET /ad/phone/_count
{
  "query": {
    "match": {
      "name": "phone"
    }
  }
}
複製代碼

關鍵詞詳解

1. match_all查詢

查詢簡單的匹配全部文檔

GET /ad/phone/_search
{
  "query": {
    "match_all": {}
  }
}
複製代碼

2. match查詢

支持全文搜索和精確查詢,取決於字段是否支持全文檢索

全文檢索:

GET /ad/phone/_search
{
  "query": {
    "match": {
      "ad": "a red"
    }
  }
}
複製代碼

全文檢索會將查詢的字符串先進行分詞,a red會分紅爲ared,而後在倒排索引中進行匹配,因此這條語句會將三條文檔都查出來

精確查詢:

GET /ad/phone/_search
{
  "query": {
    "match": {
      "price": "6000"
    }
  }
}
複製代碼

對於精確值的查詢,可使用 filter 語句來取代 query,由於 filter 將會被緩存

operator操做:

match 查詢還能夠接受 operator 操做符做爲輸入參數,默認狀況下該操做符是 or 。咱們能夠將它修改爲 and 讓全部指定詞項都必須匹配

GET /ad/phone/_search
{
  "query": {
    "match": {
      "ad": {
        "query": "a red",
        "operator": "and"
      }
    }
  }
}
複製代碼

精確度匹配:

match 查詢支持 minimum_should_match 最小匹配參數, 能夠指定必須匹配的詞項數用來表示一個文檔是否相關。咱們能夠將其設置爲某個具體數字(指須要匹配倒排索引的詞的數量),更經常使用的作法是將其設置爲一個百分數,由於咱們沒法控制用戶搜索時輸入的單詞數量

GET /ad/phone/_search
{
  "query": {
    "match": {
      "ad": {
        "query": "a red",
        "minimum_should_match": "2"
      }
    }
  }
}
複製代碼

只會返回匹配上ared兩個詞的文檔返回,若是minimum_should_match是1,則只要匹配上其中一個詞,文檔就會返回

3. multi_match查詢

多字段查詢,好比查詢colorad字段包含單詞red的文檔

GET /ad/phone/_search
{
  "query": {
    "multi_match": {
      "query": "red",
      "fields": ["color","ad"]
    }
  }
}
複製代碼

4. range查詢

範圍查詢,查詢價格大於4000小於6000的文檔

GET /ad/phone/_search
{
  "query": {
    "range": {
      "price": {
        "gt": 4000,
        "lt": 6000
      }
    }
  }
}
複製代碼

範圍查詢操做符:gt (大於),gte(大於等於),lt(小於),lte(小於等於);

5. term查詢

精確值查詢

查詢price字段等於6000的文檔

GET /ad/phone/_search
{
  "query": {
    "term": {
      "price": {
        "value": "6000"
      }
    }
  }
}
複製代碼

查詢name字段等於phone 8的文檔

GET /ad/phone/_search
{
  "query": {
    "term": {
      "name": {
        "value": "phone 8"
      }
    }
  }
}
複製代碼

返回值以下,沒有查詢到名稱爲phone 8的文檔

{
  "took": 5,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 0,
    "max_score": null,
    "hits": []
  }
}
複製代碼

爲何沒有查到phone 8的這個文檔那,這裏須要介紹一下term的查詢原理

term查詢會去倒排索引中尋找確切的term,它並不會走分詞器,只會去配倒排索引 ,而name字段的type類型是text,會進行分詞,將phone 8 分爲phone8,咱們使用term查詢phone 8時倒排索引中沒有phone 8,因此沒有查詢到匹配的文檔

term查詢與match查詢的區別

  • term查詢時,不會分詞,直接匹配倒排索引
  • match查詢時會進行分詞,查詢phone 8時,會先分詞成phone8,而後去匹配倒排索引,因此結果會將phone 8xiaomi 8兩個文檔都查出來

還有一點須要注意,由於term查詢不會走分詞器,可是回去匹配倒排索引,因此查詢的結構就跟分詞器如何分詞有關係,好比新增一個/ad/phone類型下的文檔,name字段賦值爲Oppo,這時使用term查詢Oppo不會查詢出文檔,這時由於es默認是用的standard分詞器,它在分詞後會將單詞轉成小寫輸出,因此使用oppo查不出文檔,使用小寫oppo能夠查出來

GET /ad/phone/_search
{
  "query": {
    "term": {
      "name": {
        "value": "Oppo" //改爲oppo能夠查出新添加的文檔
      }
    }
  }
}
複製代碼

這裏說的並非想讓你瞭解standard分詞器,而是要get到全部像term這類的查詢結果跟選擇的分詞器有關係,瞭解選擇的分詞器分詞方式有助於咱們編寫查詢語句

6. terms查詢

terms查詢與term查詢同樣,但它容許你指定多直進行匹配,若是這個字段包含了指定值中的任何一個值,那麼這個文檔知足條件

GET /ad/phone/_search
{
  "query": {
    "terms": {
      "ad": ["red","blue"]
    }
  }
}
複製代碼

7. exists 查詢和 missing 查詢

用於查找那些指定字段中有值 (exists) 或無值 (missing) 的文檔

指定name字段有值:

GET /ad/phone/_search
{
  "query": {
    "bool": {
      "filter": {
        "exists": {
          "field": "name"
        }
      }
    }
  }
}
複製代碼

指定name字段無值:

GET /ad/phone/_search
{
  "query": {
    "bool": {
      "filter": {
        "missing": {
          "field": "name"
        }
      }
    }
  }
}
複製代碼

8. match_phrase查詢

短語查詢,精確匹配,查詢a red會匹配ad字段包含a red短語的,而不會進行分詞查詢,也不會查詢出包含a 其餘詞 red這樣的文檔

GET /ad/phone/_search
{
  "query": {
    "match_phrase": {
      "ad": "a red"
    }
  }
}
複製代碼

9. scroll查詢

相似於分頁查詢,不支持跳頁查詢,只能一頁一頁往下查詢,scroll查詢不是針對實時用戶請求,而是針對處理大量數據,例如爲了將一個索引的內容從新索引到具備不一樣配置的新索引中

POST /ad/phone/_search?scroll=1m
{
  "query": {
    "match_all": {}
  },
  "size": 1,
  "from": 0
}
複製代碼

返回值包含一個 "_scroll_id": "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAAAQFlV6T3VqY2NaVDBLRG5uZXdiZ0hFYUEAAAAAAAAAERZVek91amNjWlQwS0RubmV3YmdIRWFBAAAAAAAAABIWVXpPdWpjY1pUMEtEbm5ld2JnSEVhQQAAAAAAAAATFlV6T3VqY2NaVDBLRG5uZXdiZ0hFYUEAAAAAAAAAFBZVek91amNjWlQwS0RubmV3YmdIRWFB"

下次查詢的時候使用_scroll_id就能夠查詢下一頁的文檔

POST /_search/scroll 
{
    "scroll" : "1m", 
    "scroll_id" : "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAAAYFlV6T3VqY2NaVDBLRG5uZXdiZ0hFYUEAAAAAAAAAGRZVek91amNjWlQwS0RubmV3YmdIRWFBAAAAAAAAABYWVXpPdWpjY1pUMEtEbm5ld2JnSEVhQQAAAAAAAAAXFlV6T3VqY2NaVDBLRG5uZXdiZ0hFYUEAAAAAAAAAFRZVek91amNjWlQwS0RubmV3YmdIRWFB" 
}
複製代碼

10. multi get查詢

容許基於索引,類型(可選)和id(以及可能的路由)獲取多個文檔,若是某個文檔獲取失敗則將錯誤信息包含在響應中

```json
GET /ad/phone/_mget
{
  "ids": ["1","8"]
}
```
複製代碼

11. bulk批量操做

bulk批量操做能夠在單次API調用中實現多個文檔的createindexupdatedelete。這能夠大大提升索引速度

bulk請求體以下

{ action: { metadata }}\n 
{ request body        }\n
{ action: { metadata }}\n
{ request body        }\n
...
複製代碼

action必須是如下幾種:

行爲 解釋
create 當文檔不存在時建立
index 建立新文檔或替換已有文檔
update 局部更新文檔
delete 刪除一個文檔

在索引、建立、更新或刪除時必須指定文檔的_index_type_id這些元數據(metadata)

例:

PUT _bulk
    { "create" : { "_index" : "ad", "_type" : "phone", "_id" : "6" }}
    { "doc" : {"name" : "bulk"}}
    { "index" : { "_index" : "ad", "_type" : "phone", "_id" : "6" }}
    { "doc" : {"name" : "bulk"}}
    { "delete":{  "_index" : "ad", "_type" : "phone", "_id" : "1"}}
    { "update":{  "_index" : "ad", "_type" : "phone", "_id" : "3"}}
    { "doc" : {"name" : "huawei p20"}}
複製代碼

返回:

{
      "took": 137,
      "errors": true, //若是任意一個文檔出錯,這裏返回true,
      "items": [ //items數組,它羅列了每個請求的結果,結果的順序與咱們請求的順序相同
        {
          //create這個文檔已經存在,因此異常
          "create": { 
            "_index": "ad",
            "_type": "phone",
            "_id": "6",
            "status": 409,
            "error": {
              "type": "version_conflict_engine_exception",
              "reason": "[phone][6]: version conflict, document already exists (current version [2])",
              "index_uuid": "9F5FHqgISYOra_P09HReVQ",
              "shard": "2",
              "index": "ad"
            }
          }
        },
        {
          //index這個文檔已經存在,會覆蓋
          "index": { 
            "_index": "ad",
            "_type": "phone",
            "_id": "6",
            "_version": 3,
            "result": "updated",
            "_shards": {
              "total": 2,
              "successful": 1,
              "failed": 0
            },
            "_seq_no": 6,
            "_primary_term": 5,
            "status": 200
          }
        },
        {
          //刪除  
          "delete": { 
            "_index": "ad",
            "_type": "phone",
            "_id": "1",
            "_version": 1,
            "result": "not_found",
            "_shards": {
              "total": 2,
              "successful": 1,
              "failed": 0
            },
            "_seq_no": 4,
            "_primary_term": 5,
            "status": 404
          }
        },
        {
          //修改  
          "update": { 
            "_index": "ad",
            "_type": "phone",
            "_id": "3",
            "_version": 3,
            "result": "noop",
            "_shards": {
              "total": 2,
              "successful": 1,
              "failed": 0
            },
            "status": 200
          }
        }
      ]
    }
複製代碼

bulk請求不是原子操做,它們不能實現事務。每一個請求操做時分開的,因此每一個請求的成功與否不干擾其它操做

12. fuzzy查詢

模糊查詢,fuzzy 查詢會計算與關鍵詞的拼寫類似程度

GET /ad/phone/_search
    {
      "query": {
        "fuzzy": {
          "color":{
            "value": "res"
            , "fuzziness": 2,
            "prefix_length": 1
          }
        }
      }
    }
複製代碼

參數設置:

fuzziness:最大編輯距離,默認爲AUTO

prefix_length:不會「模糊化」的初始字符數。這有助於減小必須檢查的術語數量,默認爲0

max_expansionsfuzzy查詢將擴展到 的最大術語數。默認爲50,設置小,有助於優化查詢

transpositions:是否支持模糊轉置(abba),默認是false

13. wildcard查詢

支持通配符的模糊查詢,?匹配單個字符,*匹配任何字符

爲了防止極其緩慢通配符查詢,*?通配符項不該該放在通配符的開始

GET /ad/phone/_search
    {
      "query": {
        "wildcard": {
          "color": "r?d"
        }
      }
    }
複製代碼

未完待續...

相關文章
相關標籤/搜索