搜索引擎ElasticSearch入門

時間 2020-06-24

原文原文鏈接

前言

最近項目上須要用到搜索引擎，因爲以前本身沒有了解過，因此整理了一下搜索引擎的相關概念知識。html

正文

想查數據就免不了搜索，搜索就離不開搜索引擎，百度、谷歌都是一個很是龐大複雜的搜索引擎，他們幾乎索引了互聯網上開放的全部網頁和數據。然而對於咱們本身的業務數據來講，確定就不必用這麼複雜的技術了，若是咱們想實現本身的搜索引擎，方便存儲和檢索，能夠快速地儲存、搜索和分析海量數據。搜索引擎有不少種，我這裏主要講兩種比較流行的搜索引擎框架 Elasticsearch 和 Lucene 搜索引擎。java

1、搜索引擎實現核心

Lucene/Elasticsearch 實現快速搜索的核心就是倒排索引，Lucene/Elasticsearch 就是儘可能將磁盤裏的東西搬進內存，減小磁盤隨機讀取次數(同時也利用磁盤順序讀特性)，結合各類壓縮算法，高效使用內存，從而達到快速搜索的特性。web

核心概念：http://www.javashuo.com/article/p-hmgnyzyg-cd.html算法

http://www.javashuo.com/article/p-cihdqxlb-hk.htmlspring

2、Lucene搜索引擎

百度百科：是 Apache 軟件基金會4 Jakarta項目組的一個子項目，是一個開放源代碼的全文檢索引擎工具包（實際就是一個 Jar 包），但它不是一個完整的全文檢索引擎，而是一個全文檢索引擎的架構，提供了完整的查詢引擎和索引引擎。Lucene 是一套信息檢索工具包，並不包含搜索引擎系統，它包含了索引結構、讀寫索引工具、相關性工具、排序等功能，所以在使用 Lucene 時仍須要關注搜索引擎系統，例如數據獲取、解析、分詞等方面的東西。Lucene 提供了一個簡單卻強大的應用程式接口，可以作全文索引和搜尋。sql

Lucene，最早進、功能最強大的搜索庫，直接基於Lucene開發，很是複雜，Api複雜（實現一些簡單的功能，寫大量的java代碼），須要深刻理解原理（各類索引結構）。Lucene只是一個庫。想要使用它，你必須使用Java來做爲開發語言並將其直接集成到你的應用中，更糟糕的是，Lucene的配置及使用很是複雜，你須要深刻了解檢索的相關知識來理解它是如何工做的。數據庫

3、ElasticSearch搜索引擎

百度百科：ElasticSearch 是一個基於 Lucene 的搜索服務器。它提供了一個分佈式多用戶能力的全文搜索引擎，基於 RESTful web 接口。Elasticsearch 是用Java語言開發的，並做爲Apache許可條款下的開放源碼發佈，是一種流行的企業級搜索引擎。ElasticSearch 用於雲計算中，可以達到實時搜索，穩定，可靠，快速，安裝使用方便。數組

ElasticSearch 的實現原理主要分爲如下幾個步驟，首先用戶將數據提交到Elastic Search 數據庫中，再經過分詞控制器去將對應的語句分詞，將其權重和分詞結果一併存入數據，當用戶搜索數據時候，再根據權重將結果排名，打分，再將返回結果呈現給用戶。瀏覽器

Elasticsearch，基於 Lucene，隱藏複雜性，提供簡單易用的R estful Api 接口、Java Api 接口（還有其餘語言的Api 接口）springboot

分佈式的文檔存儲引擎
分佈式的搜索引擎和分析引擎
分佈式，支持PB級數據

4、Lucene和ElasticSearch優缺點對比

這兩種搜索引擎各自都有本身的特色，如今我來總結一下：

聯繫：ElasticSearch 封裝了 Lucene，讓使用變得更簡單，ElasticSearch 除了擁有Lucene 全部優勢之外，還有本身的優勢：

可用性：支持集羣沒有單點障礙，

擴展性：支持集羣擴展-高併發

在集羣環境中使用：大項目使用

ElasticSearch全文檢索服務器，全部項目都統一訪問索引服務器，支持在集羣環境中使用， Lucene全文檢索引擎工具包，必須集成到項目中使用，不支持在集羣環境下使用。
ElasticSearch支持多種語言，Lucene只支持java
ElasticSearch簡單，都是http請求，而Lucene複雜，都須要調用API執行一大推操做。
通常Lucene在中小型項目中使用，ElasticSearch都適用（大中小），由於ES支持在集羣環境中使用，而且自身也支持集羣。
Luncene須要二次開發，才能使用。不能像百度或谷歌同樣，它只是提供一個接口須要被實現才能使用。 ElasticSearch直接拿來用。
封裝了更多高級的功能，例如聚合分析的功能，基於地理位置的搜索
ES自動能夠將海量數據分散到多臺服務器上去存儲和檢索

綜上所述：搜索引擎選擇用 ElasticSearch

5、SpringBoot整合ElasticSearch

SpringBoot 整合 Elasticsearch 經常使用的方式有如下三種：

Java API

這種方式基於TCP和ES通訊，官方已經明確表示在ES 7.0版本中將棄用TransportClient客戶端，且在8.0版本中徹底移除它,因此不提倡。

REST Client

上面的方式1是基於TCP和ES通訊的(並且 TransPort 未來會被拋棄……)，官方也給出了基於HTTP的客戶端REST Client(推薦使用)，官方給出來的REST Client有Java Low Level REST Client和Java Hight Level REST Client兩個，前者兼容全部版本的ES，後者是基於前者開發出來的，只暴露了部分API，待完善

Spring-Data-Elasticsearch（推薦）

除了上述方式，Spring 也提供了自己基於 SpringData 實現的一套方案Spring-Data-Elasticsearch。爲什們推薦這種呢，由於這種方式 Spring 爲咱們封裝了常見的es操做。和使用 Jpa 操做數據庫同樣方便。

在ES中一個 Index 能夠理解爲一個庫，Type 就是一張表，一個Index能夠對應多個Type，或者一個Index只能對應一個Type（從6.0.0 起就是一對一）。

6、Elasticsearch的安裝

從網上把 Elasticsearch 的安裝包下載下來以後，直接解壓，進入bin目錄下,雙擊執行Elasticsearch.bat，看到Started 說明啓動成功,打開瀏覽器測試一下，輸入http://localhost:9200/，則成功。

Elasticsearch-Head插件

Elasticsearch-Head將是一款專門針對於 Elasticsearch 的客戶端工具，相似 Mysql 的 Sqlyog 或者 Navicat數據庫軟件可視化界面。

運行head插件：grunt server

訪問：localhost:9100

7、ElasticSearch實現聯表查詢

SpringBoot整合ElasticSearch+父子查詢

父子關係的type和映射關係要提早創建好。

這裏講一下三種實現方式：

嵌套查詢 Nested Query：文檔包含 nested 類型的字段。這些字段用來索引數組對象，其中每一個對象做爲獨立的文檔能夠被檢索（使用 nested 查詢）。
父子查詢Has_Child 和 Has_Parent ：父子關係能夠在一個單獨的索引中的兩個文檔類型間存在。has_child 查詢返回了父文檔，其子文檔匹配了特定的查詢。而 has_parent 查詢返回子文檔，其父文檔匹配了特定的查詢。（相似於主外鍵）要點：父子關係元數據映射，用於確保查詢時候的高性能，可是有一個限制，就是父子數據必須存在於一個shard中
應用層聯接。

8、Nested 和 Parent-Child的區別以及使用場景

嵌套查詢和父子查詢的主要區別：

因爲存儲結構的不一樣，Nested 和 Parent-Child 的方式有不一樣的應用場景，Nested 全部實體存儲在同一個文檔，而 Parent-Child 模式得子 Type 和父Type 存儲在不一樣的文檔裏。因此查詢效率上 Nested 要高於 Parent-Child，可是更新的時候 Nested 模式下，ElasticSearch 會刪除整個文檔再建立，而 Parent-Child 只會刪除你更新的文檔在從新建立，不影響其餘文檔。因此更新效率上 Parent-Child 要高於 Nested。

嵌套查詢和父子查詢的具體的使用場景：

Nested：在少許子文檔，而且不會常常改變的狀況下使用。好比：訂單裏面的產品，一個訂單不可能會有成千上萬個不一樣的產品，通常不會不少，而且一旦下單後，下單的產品是不可更新的。

Parent-Child：在大量文檔，而且會常常發生改變的狀況下使用。好比：用戶的瀏覽記錄，瀏覽記錄會很大，而且會頻繁更新