分佈式搜索引擎ElasticSearch之高級運用（二）

時間 2021-03-23

標籤 java app 學習網站 spa code orm blog 索引欄目系統架構简体版

原文原文鏈接

1. 分詞查詢操做

建立索引：java

PUT /movies/_doc/1
{
  "name":"The film, filmed in 2021 & tells the story of children"
}

按分詞搜索：app

GET /movies/_search
{
  "query": {
    "match": {"name": "story"}
  }
}

經過單個詞，能夠搜索匹配到結果，採用analyze查看分詞信息：學習

GET /movies/_analyze 
{
  "field": "name",
  "text": "The film, filmed in 2021 & tells the story of children"
}

analyze分詞處理流程：網站

分詞器的使用：ui

若是搜索關鍵詞爲tell是沒有任何結果，這個時候須要採用英文分詞器。spa

#從新建立索引
PUT /movies
{
  "settings":{
      "index":{
        "number_of_shards": 1, 
        "number_of_replicas": 0
      }
    },
  "mappings": {
    "properties": {
      "name":{"type":"text", "analyzer": "english"}
    }
  }
}

從新插入數據，採用關鍵詞tell搜索，能夠找到對應的結果：code

"hits" : {
    "total" : {
      "value" : 1,
      "relation" : "eq"
    },
    "max_score" : 0.2876821,
    "hits" : [
      {
        "_index" : "movies",
        "_type" : "_doc",
        "_id" : "1",
        "_score" : 0.2876821,
        "_source" : {
          "name" : "The film, filmed in 2021 & tells the story of children"
        }
      }
    ]
  }

經過英文分詞器，會進行詞幹轉化。好比一個單詞tells，實際詞幹爲tell，均可以進行搜索匹配。orm

2. 配置TMDB開源電影數據

TMDB是開源的電影網站數據，裏面累積數據較多，比較規範化，便於ES的研究和學習。blog

下載tmdb數據
下載地址索引

導入工程

ESConfig的鏈接配置類：

@Bean
    public TransportClient getClient(){
        TransportClient transportClient = null;
        try {
            Settings settings = Settings.builder().build();
            transportClient = new PreBuiltTransportClient(settings);
            // ES的鏈接配置信息, 默認transport傳輸端口爲9300，不是9200
            TransportAddress firstAddress = new TransportAddress(InetAddress.getByName("10.10.20.28"),Integer.parseInt("9300"));
            transportClient.addTransportAddress(firstAddress);
        }catch (Exception e){
            e.printStackTrace();

        }
        return transportClient;
    }

ESController提供導入接口：

@RequestMapping("/importdata")
@ResponseBody
public ResponseEntity importdata() throws IOException {
    ...
    // 索引結構配置信息， 索引名稱要配置正確
    bulkRequest.add(new IndexRequest("movies", "_doc", String.valueOf(lineId-1)).source(XContentType.JSON,
                        "title", records[17],
                        "tagline",records[16],
                        "release_date",date,
                        "popularity",records[8],
                        "cast",cast,
                        "overview",records[7]));
    ...
}

經過kibana建立索引結構

PUT /movies
{
    "settings": {
        "number_of_shards": 1,
        "number_of_replicas": 0
    },
    "mappings": {
        "properties": {
            "title": {
                "type": "text",
                "analyzer": "english"
            },
            "tagline": {
                "type": "text",
                "analyzer": "english"
            },
            "release_date": {
                "type": "date",
                "format": "8yyyy/MM/dd||yyyy/M/dd||yyyy/MM/d||yyyy/M/d"
            },
            "popularity": {
                "type": "double"
            },
            "cast": {
                "type": "object",
                "properties": {
                    "character": {
                        "type": "text",
                        "analyzer": "standard"
                    },
                    "name": {
                        "type": "text",
                        "analyzer": "standard"
                    }
                }
            },
            "overview": {
                "type": "text",
                "analyzer": "english"
            }
        }
    }
}

導入數據
調用接口： http://127.0.0.1:8080/es/importdata
會讀取csv文件，自動導入數據。
查看導入結果
經過kibana後臺，查看導入的數據：
搜索查詢
搜索title爲heart的關鍵字
```
GET /movies/_search
{
    "query":{
        "match":{"title":"heart"}
     }
}
```
可以根據english分詞器進行搜索匹配返回全部相關的結果，每一個結果都會有對應的_score評分，關鍵字出現頻率越高，或佔比越高，則得分越高，優先排在前面。

3. 搜索匹配進階

or匹配

GET /movies/_search
{
    "query": {
        "match": {
            "title": "heart from"
        }
    }
}

match搜索實質上就是or關係，分爲heart 和from兩個關鍵詞進行or關係搜索。

or的最小詞匹配控制

GET /movies/_search
{
  "query":{
    "match":{
      "title": {
        "query": "good hearts sea",
        "operator": "or",
        "minimum_should_match": 2
      }
      
    }
  }
}

這裏minimum_should_match設定爲2，只要出現good hearts 和 hearts sea，都會展現出來。

and匹配

GET /movies/_search
{
  "query":{
    "match":{
      "title": {
        "query": "heart sea",
        "operator": "and"
      }     
    }
  }
}

經過operator屬性來標識對應的操做。這個時候搜索出來的title會包含heart和sea兩個關鍵字。

短語查詢
若是想直接搜索某個短語，好比：The Good Heart，能夠採用match_phrase
```
GET /movies/_search
{
  "query":{
    "match_phrase":{"title":"The Good Heart"}
  }
}
```
會作整個短語的完整匹配，不會再進行拆分匹配。
多字段查詢
若是想對多個字段同時查詢，能夠採用multi_match方式。
```
GET /movies/_search
{
  "query":{
    "multi_match":{
      "query": "good hearts sea",
      "fields": ["title", "overview"]
    }
  }
}
```
查詢title和overview兩個屬性，都包含「good hearts sea」的記錄，相比一個屬性title的查詢，多出更多的記錄。

4. Query String查詢

能夠採用更簡便的方式，直接使用AND、OR和NOT操做。

GET /movie/_search
{
  "query":{
    "query_string":{
      "fields":["title"],
      "query":"heart AND sea"      
    }
  }
}

查出title當中既包含heart又包含sea的數據。

GET /movie/_search
{
  "query":{
    "query_string":{
      "fields":["title"],
      "query":"heart OR sea"      
    }
  }
}

查出title當中包含heart或sea的數據。

GET /movie/_search
{
  "query":{
    "query_string":{
      "fields":["title"],
      "query":"heart NOT sea"      
    }
  }
}

查出title當中包含heart但不包含sea的數據。

本文由mirson創做分享，感謝你們的支持，但願對你們有所收穫! 入羣申請，請加WX號：woodblock99

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。