Elasticsearch從入門到放棄：人生若只如初見

時間 2019-11-08

標籤 elasticsearch 入門放棄人生初見欄目日誌分析简体版

原文原文鏈接

Elasticsearch系列開坑啦，入門老是愉快的，學一學再放棄啊。node

Apache Lucene是ElasticSearch使用的全文檢索庫。瞭解Lucene以前，須要先了解一些概念：apache

其中最重要的是倒排索引，爲了方便理解，咱們看一個簡單的例子。數據結構

假設這裏有三句話：app

T[0] = "it is what it is"elasticsearch

T[1] = "what is it"性能

T[2] = "it is a banana"指針

倒排索引一般有兩種表現形式：cdn

"a" : {2}blog

"banana" : {2}索引

"is" : {0, 1, 2}

"it" : {0, 1, 2}

"what" : {0,1}

"a" : {(2, 2)}

"banana" : {(2, 3)}

"is" : {(0, 1), (0, 4), (1, 1), (2, 1)}

"it" : {(0, 0), (0, 3), (1, 2), (2, 0)}

"what" : {(0, 2), (1, 0)}

在瞭解了Lucene的一些基本概念以後，還須要瞭解Lucene的查詢語言。一個查詢一般被分割爲詞項和操做符，詞項能夠是單個詞或短語。操做符包括：

AND：文檔同時包含AND兩邊的詞項時才返回
OR：文檔包含OR兩邊的詞項中任意一個時就返回
NOT：不包含NOT操做符後面的詞項
+：只有包含+操做符後面詞項的文檔纔會返回。例如，查詢+lucene apache表示必須包含lucene，apache可包含可不包含
-：匹配的文檔不能出現-操做符後的詞項
冒號：查詢title:elasticsearch表示要查詢全部在title字段中包含詞項elastisearch的文檔
通配符（?/*）：?匹配任意一個字符，*匹配任意多個字符（出於性能考慮，通配符不能做爲詞項的第一個字符）
~：用於Lucene中的模糊查詢，~後面跟的整數值肯定了近似詞項與原始詞項的最大編輯距離。例如查詢boy~2，那麼boy和boys這兩個詞項都能匹配，用於短語時，則表示詞項之間能夠接受的最大距離
^：用於對詞項進行加權
花括號：表示範圍查詢

對於一些特殊字符的查詢，咱們一般使用反斜槓進行轉義。

瞭解了Lucene的基本概念之後，咱們回到正題，再來看一下Elasticsearch的一些基本概念，可能和Lucene有一些重複，不過仍是有一些Elasticsearch特有的屬性。

**索引（index）：**數據存儲在索引中，能夠向索引寫入文檔或者從索引讀取文檔，Elasticsearch的索引可能由一個或多個Lucene索引構成。
**文檔（document）：**文檔由字段構成，每一個字段有它的字段名以及一個或多個字段值
**映射（mapping）：**用於存儲元信息，這些元信息決定了如何將輸入文本分割爲詞條，哪些詞條應該被過濾掉等
**類型（type）：**每一個文檔都有與之對應的類型，同一類型下的文檔數據結構一般保持一致，不一樣文檔能夠有不一樣的映射。可是在Elasticsearch7之後已經刪除了這個概念
**節點（node）：**集羣中每一個ES實例都稱做一個節點
**集羣（cluster）：**在生產環境中，咱們的數據量和查詢壓力可能超過了單機負載，所以須要多個節點協同處理
**分片（shard）：**ES會將數據散落到多個Lucene索引上。這些Lucene索引稱爲分片。ES會自動進行分片處理
**副本（replica）：**ES會爲每一個分片建立冗餘的副本，一方面分攤請求壓力，另外一方面是爲了保證數據不會丟失。ES支持在任意時間點添加或移除副本