國內如今有大量的公司都在使用 Elasticsearch,包括攜程、滴滴、今日頭條、餓了麼、360安全、小米、vivo等諸多知名公司。node
除了搜索以外,結合Kibana、Logstash、Beats,Elastic Stack還被普遍運用在大數據近實時分析領域,包括日誌分析、指標監控、信息安全等多個領域。python
它能夠幫助你探索海量結構化、非結構化數據,按需建立可視化報表,對監控數據設置報警閾值,甚至經過使用機器學習技術,自動識別異常情況。mysql
京東到家訂單中心繫統業務中,不管是外部商家的訂單生產,或是內部上下游系統的依賴,訂單查詢的調用量都很是大,形成了訂單數據讀多寫少的狀況。linux
京東到家的訂單數據存儲在MySQL中,但顯然只經過DB來支撐大量的查詢是不可取的,同時對於一些複雜的查詢,Mysql支持得不夠友好,因此訂單中心繫統使用了Elasticsearch來承載訂單查詢的主要壓力。sql
Elasticsearch 作爲一款功能強大的分佈式搜索引擎,支持近實時的存儲、搜索數據,在京東到家訂單系統中發揮着巨大做用,目前訂單中心ES集羣存儲數據量達到10億個文檔,日均查詢量達到5億。數據庫
隨着京東到家近幾年業務的快速發展,訂單中心ES架設方案也不斷演進,發展至今ES集羣架設是一套實時互備方案,很好的保障了ES集羣讀寫的穩定性。安全
如上圖,訂單中心ES集羣架設示意圖。整個架設方式經過VIP來負載均衡外部請求。服務器
第一層gateway節點實質爲ES中client node,至關於一個智能負載均衡器,充當着分發請求的角色。restful
第二層爲data node,負責存儲數據以及執行數據的相關操做。整個集羣有一套主分片,二套副分片(一主二副),從網關節點轉發過來的請求,會在打到數據節點以前經過輪詢的方式進行均衡。架構
集羣增長一套副本並擴容機器的方式,增長了集羣吞吐量,從而提高了整個集羣查詢性能。固然分片數量和分片副本數量並非越多越好,在此階段中,對選擇適當的分片數量作了近一步探索。分片數能夠理解爲Mysql中的分庫分表,而當前訂單中心ES查詢主要分爲兩類:單ID查詢以及分頁查詢。
分片數越大,集羣橫向擴容規模也更大,根據分片路由的單ID查詢吞吐量也能大大提高,但對於聚合的分頁查詢性能則將下降。分片數越小,集羣橫向擴容規模更小,單ID的查詢性能也將降低,但對於分頁查詢,性能將會獲得提高。
因此如何均衡分片數量和現有查詢業務,咱們作了不少次調整壓測,最終選擇了集羣性能較好的分片數。因爲大部分ES查詢的流量都來源於近幾天的訂單,且訂單中心數據庫數據已有一套歸檔機制,將指定天數以前已經關閉的訂單轉移到歷史訂單庫。
架構的快速迭代源於業務的快速發展,正是因爲近幾年到家業務的高速發展,訂單中心的架構也不斷優化升級。而架構方案沒有最好的,只有最合適的。
相信再過幾年,訂單中心的架構又將是另外一個面貌,但吞吐量更大,性能更好,穩定性更強,將是訂單中心繫統永遠的追求。
1.攜程酒店訂單Elasticsearch實戰
選擇對分片後的數據庫創建實時索引,把查詢收口到一個獨立的 Web Service,在保證性能的前提下,提高業務應用查詢時的便捷性。
最終咱們選擇了 Elasticsearch,看中的是它的輕量級、易用和對分佈式更好的支持,整個安裝包也只有幾十兆。
2.攜程機票ElasticSearch集羣運維馴服記
這個是比較通用的數據的流程,通常會經過Kafka分離產生數據的應用程序和後面的平臺,經過ETL落到不一樣的地方,按照優先級和冷熱程度採起不一樣的存儲方式。
通常來講,冷數據存放到HDFS,若是溫數據、或者熱數據會採用Database以及Cache。一旦數據落地,咱們會作兩方面的應用,第一個方面的應用是傳統BI,好比會產生各類各樣的報表,報表的受衆是更高的決策層和管理層,他們看了以後,會有相應的業務調整和更高層面的規劃或轉變。
這個使用路徑比較傳統的,在數據倉庫時代就已經存在了。如今有一種新興的場景就是利用大數據進行快速決策,數據不是餵給人的,數據分析結果由程序來消費,實際上是再次的反饋到數據源頭即應用程序中,讓他們基於快速分析後的結果,調整已有策略,這樣就造成了一個數據使用的循環。
這樣咱們從它的輸入到輸出會造成一種閉環,並且這個閉環所有是機器參與的,這也是爲何去研究這種大規模的,或者快速決策的緣由所在。
若是數據最終還會給人自己來看的話,就沒有必要更新那麼快,由於一秒鐘刷新一次或者10秒鐘刷新一次對人是沒有意義的,由於咱們腦子不可能一直轉那麼快,基於數據一直的作調整也是不現實的,可是對機器來說,就徹底沒有問題。
3.攜程:大規模 Elasticsearch 集羣管理心得
目前,咱們最大的日誌單集羣有120個data node,運行於70臺物理服務器上。
數據規模以下:
•單日索引數據條數600億,新增索引文件25TB (含一個複製片則爲50TB)
•業務高峯期峯值索引速率維持在百萬條/秒
•歷史數據保留時長根據業務需求制定,從10天 - 90天不等
•集羣共3441個索引、17000個分片、數據總量約9300億, 磁盤總消耗1PB
15年去哪兒網酒店日均訂單量達到30w+,隨着多平臺訂單的聚合日均訂單能達到100w左右。原來採用的熱表分庫方式,即將最近6個月的訂單的放置在一張表中,將歷史訂單放在在history表中。
history表存儲全量的數據,當用戶查詢的下單時間跨度超過6個月即查詢歷史訂單表,此分表方式熱表的數據量爲4000w左右,當時能解決的問題。可是顯然不能知足攜程藝龍訂單接入的需求。若是繼續按照熱表方式,數據量將超過1億條。全量數據表保存2年的可能就超過4億的數據量。因此尋找有效途徑解決此問題迫在眉睫。
因爲對這預計4億的數據量還需按照預約日期、入住日期、離店日期、訂單號、聯繫人姓名、電話、酒店名稱、訂單狀態……等多個條件查詢。因此簡單按照某一個維度進行分表操做沒有意義。
Elasticsearch分佈式搜索儲存集羣的引入,就是爲了解決訂單數據的存儲與搜索的問題。對訂單模型進行抽象和分類,將經常使用搜索字段和基礎屬性字段剝離。
DB作分庫分表,存儲訂單詳情;Elasticsearch存儲搜素字段。訂單複雜查詢直接走Elasticsearch,基於OrderNo的簡單查詢走DB,以下圖所示。
系統伸縮性:Elasticsearch 中索引設置了8個分片,目前ES單個索引的文檔達到1.4億,合計達到2億條數據佔磁盤大小64G,集羣機器磁盤容量240G。
全面介紹 Elastic Stack 在58集團信息安所有的落地,升級,優化以及應用。包括以下幾個方面:接入背景,存儲選型,性能挑戰,master node以及data node優化,安全實踐,高吞吐量以及低延遲搜索優化;kibana 的落地,本地化使其更方便產品、運營使用。
滴滴 2016 年初開始構建 Elasticsearch 平臺,現在已經發展到超過 3500+ Elasticsearch 實例,超過 5PB 的數據存儲,峯值寫入 tps 超過了 2000w/s 的超大規模。
Elasticsearch 在滴滴有着很是豐富的使用場景,例如線上核心的打車地圖搜索,客服、運營的多維度查詢,滴滴日誌服務等近千個平臺用戶。
先看看滴滴 Elasticsearch 單集羣的架構:滴滴在單集羣架構的時候,寫入和查詢就已經經過 Sink 服務和 Gateway 服務管控起來。
1. Sink服務
滴滴幾乎全部寫入 Elasticsearch 的數據都是經由 kafka 消費入到 Elasticsearch。
kafka 的數據包括業務 log 數據、mysql binlog 數據和業務自主上報的數據,Sink 服務將這些數據實時消費入到 Elasticsearch。最初設計 Sink 服務是想對寫入 Elasticsearch 集羣進行管控,保護 Elasticsearch 集羣,防止海量的數據寫入拖垮 Elasticsearch,以後咱們也一直沿用了 Sink 服務,並將該服務從 Elasticsearch 平臺分離出去,成立滴滴 Sink 數據投遞平臺,能夠從 kafka 或者 MQ 實時同步數據到 Elasticsearch、HDFS、Ceph 等多個存儲服務。
有了多集羣架構後,Elasticsearch 平臺能夠消費一份 MQ 數據寫入多個 Elasticsearch 集羣,作到集羣級別的容災,還能經過 MQ 回溯數據進行故障恢復。
2.Gateway 服務
全部業務的查詢都是通過 Gateway 服務,Gateway 服務實現了 Elasticsearch 的 http restful 和 tcp 協議,業務方能夠經過 Elasticsearch 各語言版本的 sdk 直接訪問 Gateway 服務,Gateway 服務還實現了 SQL 接口,業務方能夠直接使用 SQL 訪問 Elasticsearch 平臺。
Gateway 服務最初提供了應用權限的管控,訪問記錄,限流、降級等基本能力,後面隨着平臺演進,Gateway 服務還提供了索引存儲分離、DSL 級別的限流、多集羣災備等能力。
搜索引擎中,主要考慮到Elasticsearch支持結構化數據查詢以及支持實時頻繁更新特性,傳統訂單查詢報表的痛點,以及Elasticsearch可以幫助解決的問題。
訂單搜索系統架構整個業務線使用服務化方式,Elasticsearch集羣和數據庫分庫,做爲數據源被訂單服務系統封裝爲對外統一接口;各前、後臺應用和報表中心,使用服務化的方式獲取訂單數據。
福利:豆花同窗爲你們精心整理了一份關於linux和python的學習資料大合集!有須要的小夥伴們,關注豆花我的公衆號:python頭條!回覆關鍵詞「資料合集」便可免費領取!