只有光頭才能變強。文本已收錄至個人GitHub精選文章,歡迎Star:https://github.com/ZhongFuCheng3y/3yhtml
不知道你們的公司用Elasticsearch多很少,反正我公司的是有在用的。平時聽同事們聊天確定避免不了不認識的技術棧,例如說:把數據放在引擎,從引擎取出數據等等。java
若是對引擎不瞭解的同窗,就壓根聽不懂他們在說什麼(我就是聽不懂的一位,扎心了)。引擎通常指的是搜索引擎,如今用得比較多的就是Elasticsearch。node
這篇文章主要是對Elasticsearch一個簡單的入門,沒有高深的知識和使用。至少我想作到的是:之後同事們聊引擎了,至少知道他們在講什麼。git
Elasticsearch is a real-time, distributed storage, search, and analytics engine
Elasticsearch 是一個實時的分佈式存儲、搜索、分析的引擎。github
介紹那兒有幾個關鍵字:算法
因而咱們就得知道Elasticsearch是怎麼作到實時的,Elasticsearch的架構是怎麼樣的(分佈式)。存儲、搜索和分析(得知道Elasticsearch是怎麼存儲、搜索和分析的)sql
這些問題在這篇文章中都會有說起。我已經寫了200多篇原創技術文章了,後續會寫大數據相關的文章,若是想看我其餘文章的同窗,不妨關注我吧。公衆號:Java3y數據庫
若是以爲我這篇文章還不錯,對你有幫助,不要吝嗇本身的贊!緩存
在學習一項技術以前,必須先要了解爲何要使用這項技術。因此,爲何要使用Elasticsearch呢?咱們在平常開發中,數據庫也能作到(實時、存儲、搜索、分析)。性能優化
相對於數據庫,Elasticsearch的強大之處就是能夠模糊查詢。
有的同窗可能就會說:我數據庫怎麼就不能模糊查詢了??我反手就給你寫一個SQL:
select * from user where name like '%公衆號Java3y%'
這不就能夠把公衆號Java3y相關的內容搜索出來了嗎?
的確,這樣作的確能夠。可是要明白的是:name like %Java3y%
這類的查詢是不走索引的,不走索引意味着:只要你的數據庫的量很大(1億條),你的查詢確定會是秒級別的
若是對數據庫索引還不是很瞭解的同窗,建議復看一下我之前的文章。我以爲我當時寫得還不賴(哈哈哈)GitHub搜關鍵字:」索引「
並且,即使給你從數據庫根據模糊匹配查出相應的記錄了,那每每會返回大量的數據給你,每每你須要的數據量並無這麼多,可能50條記錄就足夠了。
還有一個就是:用戶輸入的內容每每並無這麼的精確,好比我從Google輸入ElastcSeach
(打錯字),可是Google仍是能估算我想輸入的是Elasticsearch
而Elasticsearch是專門作搜索的,就是爲了解決上面所講的問題而生的,換句話說:
下面咱們就來學學爲何Elasticsearch能夠作到上面的幾點。
衆所周知,你要在查詢的時候花得更少的時間,你就須要知道他的底層數據結構是怎麼樣的;舉個例子:
從上面說Elasticsearch的模糊查詢速度很快,那Elasticsearch的底層數據結構是什麼呢?咱們來看看。
咱們根據「完整的條件」查找一條記錄叫作正向索引;咱們一本書的章節目錄就是正向索引,經過章節名稱就找到對應的頁碼。
首先咱們得知道爲何Elasticsearch爲何能夠實現快速的「模糊匹配」/「相關性查詢」,其實是你寫入數據到Elasticsearch的時候會進行分詞。
仍是以上圖爲例,上圖出現了4次「算法」這個詞,咱們能不能根據此次詞爲它找他對應的目錄?Elasticsearch正是這樣乾的,若是咱們根據上圖來作這個事,會獲得相似這樣的結果:
->
2,13,42,56這表明着「算法」這個詞確定是在第二頁、第十三頁、第四十二頁、第五十六頁出現過。這種根據某個詞(不完整的條件)再查找對應記錄,叫作倒排索引。
再看下面的圖,好好體會一下:
衆所周知,世界上有這麼多的語言,那Elasticsearch怎麼切分這些詞呢?,Elasticsearch內置了一些分詞器
Elasticsearch分詞器主要由三部分組成:
顯然,Elasticsearch是老外寫的,內置的分詞器都是英文類的,而咱們用戶搜索的時候每每搜的是中文,如今中文分詞器用得最多的就是IK。
扯了一大堆,那Elasticsearch的數據結構是怎麼樣的呢?看下面的圖:
咱們輸入一段文字,Elasticsearch會根據分詞器對咱們的那段文字進行分詞(也就是圖上所看到的Ada/Allen/Sara..),這些分詞彙總起來咱們叫作Term Dictionary
,而咱們須要經過分詞找到對應的記錄,這些文檔ID保存在PostingList
在Term Dictionary
中的詞因爲是很是很是多的,因此咱們會爲其進行排序,等要查找的時候就能夠經過二分來查,不須要遍歷整個Term Dictionary
因爲Term Dictionary
的詞實在太多了,不可能把Term Dictionary
全部的詞都放在內存中,因而Elasticsearch還抽了一層叫作Term Index
,這層只存儲 部分 詞的前綴,Term Index
會存在內存中(檢索會特別快)
Term Index
在內存中是以FST(Finite State Transducers)的形式保存的,其特色是很是節省內存。FST有兩個優勢:
前面講到了Term Index
是存儲在內存中的,且Elasticsearch用FST(Finite State Transducers)的形式保存(節省內存空間)。Term Dictionary
在Elasticsearch也是爲他進行排序(查找的時候方便),其實PostingList
也有對應的優化。
PostingList
會使用Frame Of Reference(FOR)編碼技術對裏邊的數據進行壓縮,節約磁盤空間。
PostingList
裏邊存的是文檔ID,咱們查的時候每每須要對這些文檔ID作交集和並集的操做(好比在多條件查詢時),PostingList
使用Roaring Bitmaps來對文檔ID進行交併集操做。
使用Roaring Bitmaps的好處就是能夠節省空間和快速得出交併集的結果。
因此到這裏咱們總結一下Elasticsearch的數據結構有什麼特色:
從官網的介紹咱們已經知道Elasticsearch是分佈式存儲的,若是看過個人文章的同窗,對分佈式這個概念應該不陌生了。
若是對分佈式還不是很瞭解的同窗,建議復看一下我之前的文章。我以爲我當時寫得還不賴(哈哈哈)GitHub搜關鍵字:」SpringCloud「,"Zookeeper","Kafka","單點登陸"
在講解Elasticsearch的架構以前,首先咱們得了解一下Elasticsearch的一些常見術語。
相信你們看完上面的對比圖,對Elasticsearch的一些術語就不難理解了。那Elasticsearch的架構是怎麼樣的呢?下面咱們來看看:
一個Elasticsearch集羣會有多個Elasticsearch節點,所謂節點實際上就是運行着Elasticsearch進程的機器。
在衆多的節點中,其中會有一個Master Node
,它主要負責維護索引元數據、負責切換主分片和副本分片身份等工做(後面會講到分片的概念),若是主節點掛了,會選舉出一個新的主節點。
從上面咱們也已經得知,Elasticsearch最外層的是Index(至關於數據庫 表的概念);一個Index的數據咱們能夠分發到不一樣的Node上進行存儲,這個操做就叫作分片。
好比如今我集羣裏邊有4個節點,我如今有一個Index,想將這個Index在4個節點上存儲,那咱們能夠設置爲4個分片。這4個分片的數據合起來就是Index的數據
爲何要分片?緣由也很簡單:
如今問題來了,若是某個節點掛了,那部分數據就丟了嗎?顯然Elasticsearch也會想到這個問題,因此分片會有主分片和副本分片之分(爲了實現高可用)
數據寫入的時候是寫到主分片,副本分片會複製主分片的數據,讀取的時候主分片和副本分片均可以讀。
Index須要分爲多少個分片和副本分片都是能夠經過配置設置的
若是某個節點掛了,前面所提升的Master Node
就會把對應的副本分片提拔爲主分片,這樣即使節點掛了,數據就不會丟。
到這裏咱們能夠簡單總結一下Elasticsearch的架構了:
上面咱們已經知道當咱們向Elasticsearch寫入數據的時候,是寫到主分片上的,咱們能夠了解更多的細節。
客戶端寫入一條數據,到Elasticsearch集羣裏邊就是由節點來處理此次請求:
集羣上的每一個節點都是coordinating node
(協調節點),協調節點代表這個節點能夠作路由。好比節點1接收到了請求,但發現這個請求的數據應該是由節點2處理(由於主分片在節點2上),因此會把請求轉發到節點2上。
shard = hash(document_id) % (num_of_primary_shards)
路由到對應的節點以及對應的主分片時,會作如下的事:
flush index
到磁盤中。
解釋一下:
說白了就是:寫內存緩衝區(定時去生成segement,生成translog),可以讓數據能被索引、被持久化。最後經過commit完成一次的持久化。
等主分片寫完了之後,會將數據並行發送到副本集節點上,等到全部的節點寫入成功就返回ack給協調節點,協調節點返回ack給客戶端,完成一次的寫入。
Elasticsearch的更新和刪除操做流程:
doc
記錄打上.del
標識,若是是刪除操做就打上delete
狀態,若是是更新操做就把原來的doc
標誌爲delete
,而後從新新寫入一條數據前面提到了,每隔1s會生成一個segement 文件,那segement文件會愈來愈多愈來愈多。Elasticsearch會有一個merge任務,會將多個segement文件合併成一個segement文件。
在合併的過程當中,會把帶有delete
狀態的doc
給物理刪除掉。
查詢咱們最簡單的方式能夠分爲兩種:
public TopDocs search(Query query, int n); public Document doc(int docID);
根據ID去查詢具體的doc的流程是:
根據query去匹配doc的流程是:
從上面所講的寫入流程,咱們就能夠知道:Get(經過ID去查Doc是實時的),Query(經過query去匹配Doc是近實時的)
Elasticsearch查詢又分能夠爲三個階段:
DFS_QUERY_THEN_FETCH(先算分,再查詢)
通常咱們用得最多的就是QUERY_THEN_FETCH,第一種查詢完就返回整個Doc內容(QUERY_AND_FETCH)只適合於只須要查一個分片的請求。
QUERY_THEN_FETCH整體的流程流程大概是:
(doc id)
返回給協調節點,由協調節點進行數據的合併、排序、分頁等操做,產出最終結果。doc id
去各個節點上拉取實際的 document
數據,最終返回給客戶端。Query Phase階段時節點作的事:
doc id
給協調節點Fetch Phase階段時節點作的是:
doc id
,對這些doc id
作聚合,而後將目標數據分片發送抓取命令(但願拿到整個Doc記錄)doc id
,拉取實際須要的數據返回給協調節點主流程我相信你們也不會太難理解,說白了就是:因爲Elasticsearch是分佈式的,因此須要從各個節點都拉取對應的數據,而後最終統一合成給客戶端
只是Elasticsearch把這些活都幹了,咱們在使用的時候無感知而已。
這篇文章主要對Elasticsearch簡單入了個門,實際使用確定還會遇到不少坑,但我目前就到這裏就結束了。
若是文章寫得有錯誤的地方,歡迎友善指正交流。等年後還會繼續更新大數據相關的入門文章,有興趣的歡迎關注個人公衆號。以爲這篇文章還行,能夠給我一個贊👍
參考資料:
若是你們想要實時關注我更新的文章以及分享的乾貨的話,能夠關注個人公衆號「Java3y」。
在公衆號下回復「888」便可獲取!!
本已收錄至個人GitHub精選文章,歡迎Star: https://github.com/ZhongFuCheng3y/3y求點贊 求關注️ 求分享👥 求留言💬 對我來講真的 很是有用!!!