《Elasticsearch技術解析與實戰》Chapter 1.1:Elasticsearch入門和倒排索引

1. 簡介

Elasticsearch是一個機遇Lucene構建的開源、分佈式、RESTful接口全文搜索引擎。同時,Elasticsearch仍是一個分佈式文檔數據庫,可以擴展至數百個服務器存儲以處理PB級數據,一般做爲複雜搜索場景的首選利器。html

Elasticsearch的優勢:node

  1. 橫向可擴展性:只須要增長一臺服務器,配置完畢便可加入集羣。
  2. 分片機制提供更好的分佈性:同一個索引分紅多個分片,相似於HDFS的塊機制,分而治之的方式提高處理效率。
  3. 高可用:提供複製機制,一個分片能夠設置多個副本,在某臺服務器宕機狀況下,集羣依舊能夠工做,並在宕機服務器重啓後恢復數據。
  4. 使用簡單:開箱即用,快速搭建搜索服務。

Elasticsearch wiki:https://zh.wikipedia.org/wiki/Elasticsearchgit

2. 數據庫搜索

在數據量少的狀況下能夠當作搜索服務來使用,然而數據庫歸根結底是作持久化存儲。若是數據量大就須要作搜索服務,底層數據仍是關係數據庫。我司老系統中有一個訂單表,數據量已經高達兩億,客服等後臺系統一般帶有範圍或批量條件等查詢,這時數據庫基本上就沒法響應了,報警根本停不下來。所以,用數據庫來實現搜索,性能差,可用性不高。github

3. Lucene

Lucene是一個開源的全文搜索引擎工具包,其目的是爲開發者提供一個簡單工具包,以快速實現全文檢索的功能。算法

Lucene wiki:https://zh.wikipedia.org/wiki/Lucene數據庫

4. 倒排索引

倒排索引中的索引對象是文檔或者文檔集合中的單詞等,用來存儲這些單詞在一個文檔或者一組文檔中的存儲位置,是對文檔或者文檔集合的一種最經常使用的索引機制。搜索引擎的關鍵步驟就是創建倒排索引,下面介紹Lucene是如何創建倒排索引和相應的生成算法。數組

假設有兩篇文章: 文章1:Tom lives in Guangzhou, I live in Guangzhou too. 文章2:He once lived in Shanghai.服務器

4.1 取得關鍵詞

Lucene是基於關鍵詞索引和查詢的,首先要進行關鍵詞提取:app

  • 分詞:英文單詞由空格分隔,較好處理;中文詞語因爲是連在一塊兒的,須要進行特殊的分詞處理(後面會介紹分詞器相關知識)。分佈式

  • 過濾無概念詞語:英文中「in」「once」「too」等詞沒有實際意義;中文中「的」「是」等也無實際意義,這些無概念詞語能夠過濾掉。

  • 統一大小寫:「he」和「HE」表示的含義同樣,因此單詞須要統一大小寫。

  • 語義還原:一般用戶查詢「live」時但願能將「lives」和「lived」也查詢出來,因此須要將「lives」和「lived」還原成「live」。

  • 過濾標點符號

    通過以上過濾,獲得以下結果: 文章1關鍵詞:tom live guangzhou i live guangzhou 文章2關鍵詞:he live shanghai

4.2 創建倒排索引

關鍵詞創建完成後,就能夠進行倒排索引創建了。過濾後的關係是:「文章號「對」文章中全部關鍵詞「,倒排索引把這個關係倒過來變成:」關鍵詞「對」擁有關鍵詞的全部文章號「。

一般僅知道關鍵詞在哪些文章中出現還不夠,還須要知道關鍵詞在文章中出現的次數和位置,一般有兩種位置:

  1. 字符位置,即記錄該詞是文章中第幾個字符(優勢是顯示並定位關鍵詞快)。
  2. 關鍵詞位置,即記錄該詞是文章中的第幾個關鍵詞(優勢是節約索引空間、詞組查詢快),Lucene中記錄的就是這種位置。

以上就是Lucene索引結構中最核心的部分,關鍵字是按字符順序排列的(Lucene沒有使用B樹結構),所以Lucene可使用二元搜索算法快速定位關鍵詞。

4.3 實現

Lucene將上面三列分別做爲詞典文件(Term Dictionary)、頻率文件(frequencies)、位置文件(positions)保存。其中詞典文件不只保存了每一個關鍵詞,還保留了指向頻率文件和位置文件的指針,經過指針能夠找到該關鍵字的頻率信息和位置信息。

Lucene中使用了field的概念,用於表達信息所在的位置(如標題中、文章中、url中),在建索引中,該field信息也記錄在詞典文件中,每一個關鍵詞都有一個field信息,由於每一個關鍵字必定屬於一個或多個field。

4.4 壓縮算法

爲了減少索引文件的大小,Lucene對索引仍是用了壓縮技術。 首先,對詞典文件中的關鍵詞進行壓縮,關鍵詞壓縮爲<前綴長度,後綴>,例如:當前詞爲」阿拉伯語「,上一個詞爲」阿拉伯「,那麼」阿拉伯語「壓縮爲<3,語>。 其次大量用到的是對數字的壓縮,數字只保存與上一個值的差值(這樣能夠減小數字的長度,進而減小保存該數字須要的字節數)。例如當前文章號是16389(不壓縮要用3個字節),上一文章號是16382,壓縮後保存7(只用一個字節)。

壓縮算法推薦閱讀:https://www.cnblogs.com/dreamroute/p/8484457.html

4.5 實戰

查詢單詞」live「,Lucene先對詞典二元查找,找到該詞,經過指向頻率文件的指針讀出全部文章號,而後返回結果。詞典一般很是小,能夠達到毫秒級返回。而用普通的順序匹配算法,不創建索引,而是對全部文章的內容進行字符串匹配,過程是很緩慢的,當數據量很大時,耗時更加嚴重。

5. 基礎概念

5.1 索引詞(term)

Elasticsearch中可以被索引的精確值。foo、Foo、FOO幾個單詞是不一樣的索引詞。索引詞能夠經過term查詢進行準確的搜索。

5.2 文本(text)

文本會被拆分紅一個個索引詞存儲在索引庫中,爲後續搜索提供支持。

5.3 分析(analysis)

分析是將文本轉換爲索引詞的過程,其結果依賴於分詞器。

5.4 集羣(cluster)

集羣由一個或多個節點組成,對外提供服務。Elasticsearch節點若是有相同的集羣名稱會自動加入到同一個集羣,所以若是你擁有多個獨立集羣,每一個集羣都要設置不一樣的名稱。

5.5 節點(node)

節點是一個邏輯上獨立的服務,是集羣的一部分,能夠存儲數據,並參與集羣的索引和搜索功能。

5.6 路由(routing)

文檔存儲時是經過散列值進行計算,最終選擇存儲在主分片中,這個值默認是由文檔的ID生成。

5.7 分片(shard)

分片是單個Lucene實例,是Elasticsearch管理的比較底層的功能。當索引佔用空間很大超過一個節點的物理存儲,Elasticsearch將索引切分紅多個分片,分散在不一樣的物理節點上,以解決單物理節點存儲空間有限的問題。

5.8 主分片(primary shard)

每一個文檔都存儲在一個分片中,存儲文檔時系統會首先存儲在主分片中,而後複製到不一樣的副本中。默認狀況下一個索引擁有5個主分片,分片一旦創建,主分片數量就沒法修改。

5.9 副本分片(replica shard)

每一個主分片有零個或多個副本,是主分片的複製,其主要目的是:

  1. 增長高可用性:當主分片失敗時,某一副本分片提高爲主分片
  2. 提升性能:副本分片數量能夠動態配置,能夠爲主分片分擔查詢壓力。
  3. 容許水平分割擴展數據
  4. 容許分配和並行操做,從而提升性能和吞吐量。

5.10 複製(replica)

主分片的數據會複製到副本分片中,這樣避免了單點問題,當某個節點發生故障,複製能夠對故障進行轉移,保證系統的高可用。

5.11 索引(index)

索引是具備相同結構的文檔合集。

5.12 類型(type)

一個索引能夠定義一個或多個類型,類型是索引的邏輯分區。

5.13 文檔(document)

文檔是存儲在Elasticsearch中的一個JSON格式的字符串,就像關係數據庫中表的一行記錄。

5.14 映射(mapping)

映射像關係數據庫中的表結構,每一個索引都有一個映射,它定義了索引中的每個字段類型。映射能夠事先被定義,也能夠在第一次存儲文檔時被自動識別。

5.15 字段(field)

文檔中包含零個或多個字段,字段能夠是一個簡單的值,也能夠是一個數組或對象的嵌套結構。字段相似於關係數據庫中表的列,每一個字段都對應一個字段類型。

5.16 來源字段(source field)

默認狀況下源文檔將被存儲在_source字段中,查詢時返回該字段。

5.17 主鍵(ID)

ID是文件的惟一標識,若是未指定,系統會自動生成一個ID,文檔的index/type/id必須是惟一的。

5.18 Elasticsearch核心概念 vs. 數據庫核心概念

Elasticsearch 數據庫
Document row 行
Type table 表
Index database 庫

Tips

本文同步發表在公衆號,歡迎你們關注!😁 後續筆記歡迎關注獲取第一時間更新!

相關文章
相關標籤/搜索