《Elasticsearch技術解析與實戰》Chapter 1.1：Elasticsearch入門和倒排索引

時間 2019-12-01

標籤 elasticsearch 技術解析實戰 chapter 1.1 入門索引欄目日誌分析简体版

原文原文鏈接

1. 簡介

Elasticsearch是一個機遇Lucene構建的開源、分佈式、RESTful接口全文搜索引擎。同時，Elasticsearch仍是一個分佈式文檔數據庫，可以擴展至數百個服務器存儲以處理PB級數據，一般做爲複雜搜索場景的首選利器。html

Elasticsearch的優勢：node

橫向可擴展性：只須要增長一臺服務器，配置完畢便可加入集羣。
分片機制提供更好的分佈性：同一個索引分紅多個分片，相似於HDFS的塊機制，分而治之的方式提高處理效率。
高可用：提供複製機制，一個分片能夠設置多個副本，在某臺服務器宕機狀況下，集羣依舊能夠工做，並在宕機服務器重啓後恢復數據。
使用簡單：開箱即用，快速搭建搜索服務。

Elasticsearch wiki:https://zh.wikipedia.org/wiki/Elasticsearchgit

2. 數據庫搜索

在數據量少的狀況下能夠當作搜索服務來使用，然而數據庫歸根結底是作持久化存儲。若是數據量大就須要作搜索服務，底層數據仍是關係數據庫。我司老系統中有一個訂單表，數據量已經高達兩億，客服等後臺系統一般帶有範圍或批量條件等查詢，這時數據庫基本上就沒法響應了，報警根本停不下來。所以，用數據庫來實現搜索，性能差，可用性不高。github

3. Lucene

Lucene是一個開源的全文搜索引擎工具包，其目的是爲開發者提供一個簡單工具包，以快速實現全文檢索的功能。算法

Lucene wiki:https://zh.wikipedia.org/wiki/Lucene數據庫

4. 倒排索引

倒排索引中的索引對象是文檔或者文檔集合中的單詞等，用來存儲這些單詞在一個文檔或者一組文檔中的存儲位置，是對文檔或者文檔集合的一種最經常使用的索引機制。搜索引擎的關鍵步驟就是創建倒排索引，下面介紹Lucene是如何創建倒排索引和相應的生成算法。數組

假設有兩篇文章：文章1：Tom lives in Guangzhou, I live in Guangzhou too. 文章2：He once lived in Shanghai.服務器

4.1 取得關鍵詞

Lucene是基於關鍵詞索引和查詢的，首先要進行關鍵詞提取：app

分詞：英文單詞由空格分隔，較好處理；中文詞語因爲是連在一塊兒的，須要進行特殊的分詞處理（後面會介紹分詞器相關知識）。分佈式
過濾無概念詞語：英文中「in」「once」「too」等詞沒有實際意義；中文中「的」「是」等也無實際意義，這些無概念詞語能夠過濾掉。
統一大小寫：「he」和「HE」表示的含義同樣，因此單詞須要統一大小寫。
語義還原：一般用戶查詢「live」時但願能將「lives」和「lived」也查詢出來，因此須要將「lives」和「lived」還原成「live」。
過濾標點符號

通過以上過濾，獲得以下結果：文章1關鍵詞：tom live guangzhou i live guangzhou 文章2關鍵詞：he live shanghai

4.2 創建倒排索引

關鍵詞創建完成後，就能夠進行倒排索引創建了。過濾後的關係是：「文章號「對」文章中全部關鍵詞「，倒排索引把這個關係倒過來變成：」關鍵詞「對」擁有關鍵詞的全部文章號「。

一般僅知道關鍵詞在哪些文章中出現還不夠，還須要知道關鍵詞在文章中出現的次數和位置，一般有兩種位置：

字符位置，即記錄該詞是文章中第幾個字符（優勢是顯示並定位關鍵詞快）。
關鍵詞位置，即記錄該詞是文章中的第幾個關鍵詞（優勢是節約索引空間、詞組查詢快），Lucene中記錄的就是這種位置。

以上就是Lucene索引結構中最核心的部分，關鍵字是按字符順序排列的（Lucene沒有使用B樹結構），所以Lucene可使用二元搜索算法快速定位關鍵詞。

4.3 實現

Lucene將上面三列分別做爲詞典文件（Term Dictionary）、頻率文件（frequencies）、位置文件（positions）保存。其中詞典文件不只保存了每一個關鍵詞，還保留了指向頻率文件和位置文件的指針，經過指針能夠找到該關鍵字的頻率信息和位置信息。

Lucene中使用了field的概念，用於表達信息所在的位置（如標題中、文章中、url中），在建索引中，該field信息也記錄在詞典文件中，每一個關鍵詞都有一個field信息，由於每一個關鍵字必定屬於一個或多個field。

4.4 壓縮算法

爲了減少索引文件的大小，Lucene對索引仍是用了壓縮技術。首先，對詞典文件中的關鍵詞進行壓縮，關鍵詞壓縮爲<前綴長度,後綴>，例如：當前詞爲」阿拉伯語「，上一個詞爲」阿拉伯「,那麼」阿拉伯語「壓縮爲<3,語>。其次大量用到的是對數字的壓縮，數字只保存與上一個值的差值（這樣能夠減小數字的長度，進而減小保存該數字須要的字節數）。例如當前文章號是16389（不壓縮要用3個字節），上一文章號是16382，壓縮後保存7（只用一個字節）。