圖解ElasticSearch 搜索原理！看完就明白了

時間 2021-06-01

標籤 html 緩存網絡數據結構 elasticsearch 性能優化 spa 3d 日誌欄目日誌分析简体版

原文原文鏈接

先自上而下，後自底向上的介紹ElasticSearch的底層工做原理，試圖回答如下問題：html

爲何個人搜索 *foo-bar* 沒法匹配 foo-bar ？
爲何增長更多的文件會壓縮索引（Index）？
爲何ElasticSearch佔用不少內存？

版本

elasticsearch版本: elasticsearch-2.2.0緩存

雲上的集羣

集羣裏的盒子

雲裏面的每一個白色正方形的盒子表明一個節點——Node。網絡

節點之間

在一個或者多個節點直接，多個綠色小方塊組合在一塊兒造成一個ElasticSearch的索引。數據結構

索引裏的小方塊

在一個索引下，分佈在多個節點裏的綠色小方塊稱爲分片——Shard。elasticsearch

Shard＝Lucene Index

一個ElasticSearch的Shard本質上是一個Lucene Index。這篇 ElasticSearch 詳細使用教程，內部分享時被老大表揚了性能

Lucene是一個Full Text 搜索庫（也有不少其餘形式的搜索庫），ElasticSearch是創建在Lucene之上的。接下來的故事要說的大部份內容其實是ElasticSearch如何基於Lucene工做的。超詳細 116 頁 Elasticsearch 實戰文檔！高清可下載優化

圖解Lucene

Mini索引——segment

在Lucene裏面有不少小的segment，咱們能夠把它們當作Lucene內部的mini-index。spa

Segment內部

有着許多數據結構3d

Inverted Index
Stored Fields
Document Values
Cache

最最重要的Inverted Index

Inverted Index主要包括兩部分：日誌

一個有序的數據字典Dictionary（包括單詞Term和它出現的頻率）。
與單詞Term對應的Postings（即存在這個單詞的文件）。

當咱們搜索的時候，首先將搜索的內容分解，而後在字典裏找到對應Term，從而查找到與搜索相關的文件內容。Elasticsearch 查詢數據的工做原理是什麼？

查詢「the fury」

自動補全（AutoCompletion-Prefix）

若是想要查找以字母「c」開頭的字母，能夠簡單的經過二分查找（Binary Search）在Inverted Index表中找到例如「choice」、「coming」這樣的詞（Term）。ElasticSearch 億級數據檢索案例實戰！

昂貴的查找

若是想要查找全部包含「our」字母的單詞，那麼系統會掃描整個Inverted Index，這是很是昂貴的。

在此種狀況下，若是想要作優化，那麼咱們面對的問題是如何生成合適的Term。

問題的轉化

對於以上諸如此類的問題，咱們可能會有幾種可行的解決方案：

* suffix -> xiffus *

若是咱們想之後綴做爲搜索條件，能夠爲Term作反向處理。

(60.6384, 6.5017) -> u4u8gyykk

對於GEO位置信息，能夠將它轉換爲GEO Hash。

123 -> {1-hundreds, 12-tens, 123}

對於簡單的數字，能夠爲它生成多重形式的Term。

解決拼寫錯誤

一個Python庫爲單詞生成了一個包含錯誤拼寫信息的樹形狀態機，解決拼寫錯誤的問題。

Stored Field字段查找

當咱們想要查找包含某個特定標題內容的文件時，Inverted Index就不能很好的解決這個問題，因此Lucene提供了另一種數據結構Stored Fields來解決這個問題。本質上，Stored Fields是一個簡單的鍵值對key-value。默認狀況下，ElasticSearch會存儲整個文件的JSON source。