Elasticsearch(簡稱ES)是一個分佈式、可擴展、實時的搜索與數據分析引擎。ES不只僅只是全文搜索,還支持結構化搜索、數據分析、複雜的語言處理、地理位置和對象間關聯關係等。html
ES的底層依賴Lucene,Lucene能夠說是當下最早進、高性能、全功能的搜索引擎庫。可是Lucene僅僅只是一個庫。爲了充分發揮其功能,你須要使用Java並將Lucene直接集成到應用程序中。更糟糕的是,您可能須要得到信息檢索學位才能瞭解其工做原理,由於Lucene很是複雜——《ElasticSearch官方權威指南》。node
鑑於Lucene如此強大卻難以上手的特色,誕生了ES。ES也是使用Java編寫的,它的內部使用Lucene作索引與搜索,它的目的是隱藏Lucene的複雜性,取而代之的提供一套簡單一致的RESTful API。mysql
整體來講,ES具備以下特色:git
節點類型github
ES的架構很簡單,集羣的HA不須要依賴任務外部組件(例如Zookeeper、HDFS等),master節點的主備依賴於內部自建的選舉算法,經過副本分片的方式實現了數據的備份的同時,也提升了併發查詢的能力。web
ES集羣的服務器分爲如下四種角色:算法
1.列表項目master節點,負責保存和更新集羣的一些元數據信息,以後同步到全部節點,因此每一個節點都須要保存全量的元數據信息:sql
2.datanode:負責數據存儲和查詢json
3.coordinator:bootstrap
4.ingestor:
如何配置節點類型
一個節點的缺省配置是:主節點+數據節點兩屬性爲一身。對於3-5個節點的小集羣來說,一般讓全部節點存儲數據和具備得到主節點的資格。
專用協調節點(也稱爲client節點或路由節點)從數據節點中消除了聚合/查詢的請求解析和最終階段,隨着集羣寫入以及查詢負載的增大,能夠經過協調節點減輕數據節點的壓力,可讓數據節點更多專一於數據的寫入以及查詢。
master選舉
選舉策略
選舉時機
集羣啓動:後臺啓動線程去ping集羣中的節點,按照上述策略從具備master資格的節點中選舉出master
現有的master離開集羣:後臺一直有一個線程定時ping master節點,超過必定次數沒有ping成功以後,從新進行master的選舉
選舉流程
避免腦裂
腦裂問題是採用master-slave模式的分佈式集羣廣泛須要關注的問題,腦裂一旦出現,會致使集羣的狀態出現不一致,致使數據錯誤甚至丟失。
ES避免腦裂的策略:過半原則,能夠在ES的集羣配置中添加一下配置,避免腦裂的發生
#一個節點多久ping一次,默認1s discovery.zen.fd.ping_interval: 1s ##等待ping返回時間,默認30s discovery.zen.fd.ping_timeout: 10s ##ping超時重試次數,默認3次 discovery.zen.fd.ping_retries: 3 ##選舉時須要的節點鏈接數,N爲具備master資格的節點數量 discovery.zen.minimum_master_nodes=N/2+1
注意問題
負載均衡
ES集羣是分佈式的,數據分佈到集羣的不一樣機器上,對於ES中的一個索引來講,ES經過分片的方式實現數據的分佈式和負載均衡。建立索引的時候,須要指定分片的數量,分片會均勻的分佈到集羣的機器中。分片的數量是須要建立索引的時候就須要設置的,並且設置以後不能更改,雖然ES提供了相應的api來縮減和擴增分片,可是代價是很高的,須要重建整個索引。
考慮到併發響應以及後續擴展節點的能力,分片的數量不能太少,假如你只有一個分片,隨着索引數據量的增大,後續進行了節點的擴充,可是因爲一個分片只能分佈在一臺機器上,因此集羣擴容對於該索引來講沒有意義了。
可是分片數量也不能太多,每一個分片都至關於一個獨立的lucene引擎,太多的分片意味着集羣中須要管理的元數據信息增多,master節點有可能成爲瓶頸;同時集羣中的小文件會增多,內存以及文件句柄的佔用量會增大,查詢速度也會變慢。
數據副本
ES經過副本分片的方式,保證集羣數據的高可用,同時增長集羣併發處理查詢請求的能力,相應的,在數據寫入階段會增大集羣的寫入壓力。
數據寫入的過程當中,首先被路由到主分片,寫入成功以後,將數據發送到副本分片,爲了保證數據不丟失,最好保證至少一個副本分片寫入成功之後才返回客戶端成功。
相關配置
5.0以前經過consistency來設置
consistency參數的值能夠設爲 :
5.0以後經過wait_for_active_shards參數設置
寫入過程
幾個概念:
translog
寫入ES的數據首先會被寫入translog文件,該文件持久化到磁盤,保證服務器宕機的時候數據不會丟失,因爲順序寫磁盤,速度也會很快。
refresh
通過固定的時間,或者手動觸發以後,將內存中的數據構建索引生成segment,寫入文件系統緩衝區
commit/flush
超過固定的時間,或者translog文件過大以後,觸發flush操做:
merge
上面提到,每次refresh的時候,都會在文件系統緩衝區中生成一個segment,後續flush觸發的時候持久化到磁盤。因此,隨着數據的寫入,尤爲是refresh的時間設置的很短的時候,磁盤中會生成愈來愈多的segment:
merge的過程大體描述以下:
刪改操做
segment的不可變性的好處
刪除
磁盤上的每一個segment都有一個.del文件與它相關聯。當發送刪除請求時,該文檔未被真正刪除,而是在.del文件中標記爲已刪除。此文檔可能仍然能被搜索到,但會從結果中過濾掉。當segment合併時,在.del文件中標記爲已刪除的文檔不會被包括在新的segment中,也就是說merge的時候會真正刪除被刪除的文檔。
更新
建立新文檔時,Elasticsearch將爲該文檔分配一個版本號。對文檔的每次更改都會產生一個新的版本號。當執行更新時,舊版本在.del文件中被標記爲已刪除,而且新版本在新的segment中寫入索引。舊版本可能仍然與搜索查詢匹配,可是從結果中將其過濾掉。
版本控制
經過添加版本號的樂觀鎖機制保證高併發的時候,數據更新不會出現線程安全的問題,避免數據更新被覆蓋之類的異常出現。
使用內部版本號:刪除或者更新數據的時候,攜帶_version參數,若是文檔的最新版本不是這個版本號,那麼操做會失敗,這個版本號是ES內部自動生成的,每次操做以後都會遞增一。
PUT /website/blog/1?version=1 { "title": "My first blog entry", "text": "Starting to get the hang of this..." }
使用外部版本號:ES默認採用遞增的整數做爲版本號,也能夠經過外部自定義整數(long類型)做爲版本號,例如時間戳。經過添加參數version_type=external,可使用自定義版本號。內部版本號使用的時候,更新或者刪除操做須要攜帶ES索引當前最新的版本號,匹配上了才能成功操做。可是外部版本號使用的時候,能夠將版本號更新爲指定的值。
PUT /website/blog/2?version=5&version_type=external { "title": "My first external blog entry", "text": "Starting to get the hang of this..." }
fdt文件
文檔內容的物理存儲文件,由多個chunk組成,Lucene索引文檔時,先緩存文檔,緩存大於16KB時,就會把文檔壓縮存儲。
fdx文件
文檔內容的位置索引,由多個block組成:
fnm文件
文檔元數據信息,包括文檔字段的名稱、類型、數量等。
原始文檔的查詢
注意問題:lucene對原始文件的存放是行式存儲,而且爲了提升空間利用率,是多文檔一塊兒壓縮,所以取文檔時須要讀入和解壓額外文檔,所以取文檔過程很是依賴CPU以及隨機IO。
相關設置
壓縮方式的設置
原始文檔的存儲對應_source字段,是默認開啓的,會佔用大量的磁盤空間,上面提到的chunk中的文檔壓縮,ES默認採用的是LZ4,若是想要提升壓縮率,能夠將設置改爲best_compression。
index.codec: best_compression
特定字段的內容存儲
查詢的時候,若是想要獲取原始字段,須要在_source中獲取,由於全部的字段存儲在一塊兒,因此獲取完整的文檔內容與獲取其中某個字段,在資源消耗上幾乎相同,只是返回給客戶端的時候,減小了必定量的網絡IO。
ES提供了特定字段內容存儲的設置,在設置mappings的時候能夠開啓,默認是false。若是你的文檔內容很大,而其中某個字段的內容有須要常常獲取,能夠設置開啓,將該字段的內容單獨存儲。
PUT my_index { "mappings": { "_doc": { "properties": { "title": { "type": "text", "store": true } } } } }
倒排索引中記錄的信息主要有:
倒排索引的查找過程本質上是經過單詞找對應的文檔列表的過程,所以倒排索引中字典的設計決定了倒排索引的查詢速度,字典主要包括前綴索引(.tip文件)和後綴索引(.tim)文件。
字典前綴索引(.tip文件)
一個合格的詞典結構通常有如下特色:
-查詢速度快 -內存佔用小 -內存+磁盤相結合
Lucene採用的前綴索引數據結構爲FST,它的優勢有:
詞查找複雜度爲O(len(str))
字典後綴(.tim文件)
後綴詞塊主要保存了單詞後綴,以及對應的文檔列表的位置。
文檔列表(.doc文件)
lucene對文檔列表存儲進行了很好的壓縮,來保證緩存友好:
上圖通過壓縮以後將6個數字從原先的24bytes壓縮到7bytes。
文檔列表的合併
ES的一個重要的查詢場景是bool查詢,相似於mysql中的and操做,須要將兩個條件對應的文檔列表進行合併。爲了加快文檔列表的合併,lucene底層採用了跳錶的數據結構,合併過程當中,優先遍歷較短的鏈表,去較長的列表中進行查詢,若是存在,則該文檔符合條件。
倒排索引的查詢過程
filter查詢的緩存
對於filter過濾查詢的結果,ES會進行緩存,緩存採用的數據結構是RoaringBitmap,在match查詢中配合filter能有效加快查詢速度。
倒排索引保存的是詞項到文檔的映射,也就是詞項存在於哪些文檔中,DocValues保存的是文檔到詞項的映射,也就是文檔中有哪些詞項。
相關設置
keyword字段默認開啓
ES6.0(lucene7.0)以前
DocValues採用的數據結構是bitset,bitset對於稀疏數據的支持很差:
查詢邏輯很簡單,相似於數組經過下標進行索引,由於每一個value都是固定長度,因此讀取文檔id爲N的value直接從N*固定長度位置開始讀取固定長度便可。
ES6.0(lucene7.0)
由於value存儲的時候,空值再也不分配空間,因此查詢的時候不能經過上述經過文檔id直接映射到在bitset中的偏移量來獲取對應的value,須要經過獲取docid的位置來找到對應的value的位置。
因此對於DocValues的查找,關鍵在於DocIDSet中ID的查找,若是按照簡單的鏈表的查找邏輯,那麼DocID的查找速度將會很慢。lucene7借用了RoaringBitmap的分片的思想來加快DocIDSet的查找速度:
最終DocIDSet的查找邏輯爲:
查詢過程(query then fetch)
get查詢更快
默認根據id對文檔進行路由,因此指定id的查詢能夠定位到文檔所在的分片,只對某個分片進行查詢便可。固然非get查詢,只要寫入和查詢的時候指定routing,一樣能夠達到該效果。
主分片與副本分片
ES的分片有主備之分,可是對於查詢來講,主備分片的地位徹底相同,平等的接收查詢請求。這裏涉及到一個請求的負載均衡策略,6.0以前採用的是輪詢的策略,可是這種策略存在不足,輪詢方案只能保證查詢數據量在主備分片是均衡的,可是不能保證查詢壓力在主備分片上是均衡的,可能出現慢查詢都路由到了主分片上,致使主分片所在的機器壓力過大,影響了整個集羣對外提供服務的能力。
新版本中優化了該策略,採用了基於負載的請求路由,基於隊列的耗費時間自動調節隊列長度,負載高的節點的隊列長度將減小,讓其餘節點分攤更多的壓力,搜索和索引都將基於這種機制。
get查詢的實時性
ES數據寫入以後,要通過一個refresh操做以後,纔可以建立索引,進行查詢。可是get查詢很特殊,數據實時可查。
ES5.0以前translog能夠提供實時的CRUD,get查詢會首先檢查translog中有沒有最新的修改,而後再嘗試去segment中對id進行查找。5.0以後,爲了減小translog設計的負責性以便於再其餘更重要的方面對translog進行優化,因此取消了translog的實時查詢功能。
get查詢的實時性,經過每次get查詢的時候,若是發現該id還在內存中沒有建立索引,那麼首先會觸發refresh操做,來讓id可查。
查詢方式
兩種查詢上下文:
過濾(filter)的目標是減小那些須要進行評分查詢(scoring queries)的文檔數量。
分析器(analyzer)
當索引一個文檔時,它的全文域被分析成詞條以用來建立倒排索引。當進行分詞字段的搜索的時候,一樣須要將查詢字符串經過相同的分析過程,以保證搜索的詞條格式與索引中的詞條格式一致。當查詢一個不分詞字段時,不會分析查詢字符串,而是搜索指定的精確值。
能夠經過下面的命令查看分詞結果:
GET /_analyze { "analyzer": "standard", "text": "Text to analyze" }
相關性
默認狀況下,返回結果是按相關性倒序排列的。每一個文檔都有相關性評分,用一個正浮點數字段score來表示。score的評分越高,相關性越高。
ES的類似度算法被定義爲檢索詞頻率/反向文檔頻率(TF/IDF),包括如下內容:
查詢的時候能夠經過添加?explain參數,查看上述各個算法的評分結果。
日誌查詢工具
TalkingData 移動廣告監測產品Ad Tracking(簡稱ADT)的系統會接收媒體發過來的點擊數據以及SDK發過來的激活和各類效果點數據,這些數據的處理過程正確與否相當重要。例如,設備的一條激活數據爲啥沒有歸因到點擊,這類問題的排查在Ad Tracking中很常見,經過將數據流中的各個處理環節的重要日誌統一發送到ES,能夠很方便的進行查詢,技術支持的同事能夠經過拼寫簡單的查詢條件排查客戶的問題。
{ "settings": { "index": { "refresh_interval": "120s", "number_of_shards": "12", "translog": { "flush_threshold_size": "2048mb" }, "merge": { "scheduler": { "max_thread_count": "1" } }, "unassigned": { "node_left": { "delayed_timeout": "180m" } } } } }
索引mapping的設置
{ "properties": { "action_content": { "type": "string", "analyzer": "standard" }, "time": { "type": "long" }, "trackid": { "type": "string", "index": "not_analyzed" } } }
點擊數據存儲(kv存儲場景)
Ad Tracking收集的點擊數據是與廣告投放直接相關的數據,應用安裝以後,SDK會上報激活事件,系統會去查找這個激活事件是否來自於以前用戶點擊的某個廣告,若是是,那麼該激活就是一個推廣量,也就是投放的廣告帶來的激活。激活後續的效果點數據也都會去查找點擊,從點擊中獲取廣告投放的一些信息,因此點擊查詢在Ad Tracking的業務中相當重要。
業務的前期,點擊數據是存儲在Mysql中的,隨着後續點擊量的暴增,因爲Mysql不能橫向擴展,因此須要更換爲新的存儲。因爲ES擁有橫向擴展和強悍的搜索能力,而且以前日誌查詢工具中也一直使用ES,因此決定使用ES來進行點擊的存儲。
重要的設置
結合業務進行系統優化
結合業務按期關閉索引釋放資源:Ad Tracking的點擊數據具備有效期的概念,超過有效期的點擊,激活不會去歸因。點擊有效期最長一個月,因此理論上天天建立的索引在一個月以後才能關閉。可是用戶配置的點擊有效期大部分都是一天,這大部分點擊在集羣中保存30天是沒有意義的,並且會佔用大部分的系統資源。因此根據點擊的這個業務特色,將天天建立的索引拆分紅兩個,一個是有效期是一天的點擊,一個是超過一天的點擊,有效期一天的點擊的索引在一天以後就能夠關閉,從而保證集羣中打開的索引的數據量維持在一個較少的水平。
結合業務將熱點數據單獨索引:激活和效果點數據都須要去ES中查詢點擊,可是二者對於點擊的查詢場景是有差別的,由於效果點事件(例如登陸、註冊等)歸因的時候不是去直接查找點擊,而是查找激活進而找到點擊,效果點要找的點擊必定是以前激活歸因到的,因此激活歸因到的這部分點擊也就是熱點數據。激活歸因到點擊以後,將這部分點擊單獨存儲到單獨的索引中,因爲這部分點擊量少不少,因此效果點查詢的時候很快。
索引拆分:Ad Tracking的點擊數據按天進行存儲,可是隨着點擊量的增大,單天的索引大小持續增大,尤爲是晚上的時候,merge須要合併的segment數量以及大小都很大,形成了很高的IO壓力,致使集羣的寫入受限。後續採用了拆分索引的方案,天天的索引按照上午9點和下午5點兩個時間點將索引拆分紅三個,因爲索引之間的segment合併是相互獨立的,只會在一個索引內部進行segment的合併,因此在每一個小索引內部,segment合併的壓力就會減小。
其餘調優
分片的數量
經驗值:
JVM設置
經過_cat api獲取任務執行狀況
GET http://localhost:9201/_cat/thread_pool?v&h=host,search.active,search.rejected,search.completed
小技巧
參考資料
https://www.elastic.co/guide/...
https://github.com/Neway6655/...
https://www.elastic.co/blog/f...
https://blog.csdn.net/zteny/a...
https://www.elastic.co/blog/m...
做者:TalkingData戰鵬弘
封面圖來源於網絡,若有侵權,請聯繫刪除