ES 的安裝下載,網上一大片,我這邊不在重複。能夠看看我之前作的小筆記:html
其中 ES 三大要素:spring
類型(Type)
類型,用於區分索引中的文檔,即在索引中對數據邏輯分區。好比設計項目分爲 ui 、 ux 這些類型。能夠放在該類目進行區分。但通常操做,不多用到這麼複雜的。springboot
可見, _index 索引的重要性。避免某個索引存儲不相關的數據。服務器
ES 集羣搭建,文章不少。我這邊也不一一列舉了。先看 ES 集羣分佈式圖微信
跟服務器集羣相似,多個 ElasticSearch 運行實例(節點 Node)的組合體是 ElasticSearch 集羣。app
ElasticSearch 是自然分佈式的,能夠經過水平擴容爲集羣添加更多節點。socket
ElasticSearch 集羣是去中心化的,只有一個主節點(Master)。並且主節點是動態選舉,所以不會出現單點故障。elasticsearch
那節點是什麼?分佈式
上面說過,一個 ElasticSearch 運行實例就是節點。任何節點均可以被選舉成爲主節點。主節點負責集羣內因此變動,好比文檔的增長、刪除等。因此集羣不會由於主節點流量的增大成爲瓶頸。由於任何節點都會成爲主節點。
如圖,P1 P2 P0 是節點內的主分片,其餘 R 是副分片。
那分片是什麼?
分片,是 ES 節點中最小的工做單元。分片僅保存所有數據的一部分。分片包括主分片和副分片,主分片是副分片的拷貝。主分片和副分片基本沒有大的區別。
若是是全文搜索,會查詢到每一個分片,而後將每一個分片的結果進行全局地收集,並處理返回。
舉個例子:好比新建了一個索引 project , 存儲項目相關的數據。那具體的某個 project A 的數據會被切分,存儲在不一樣的分片上。那麼根據 project A 的 _id 如何路由到具體的分片上呢?
分片的路由公式是這樣的:
shard = hash(routing) % number_of_primary_shards
假若若是剛剛那個例子,一個索引 project , 存儲項目相關的數據。項目的數量級愈來愈大,億量級,萬億量級。那一個大索引的查詢啥的都會出現瓶頸。這時候該怎麼優化呢?
這時候是否是想到了,一句常說的:空間換時間。
這時候是否是也想到了,MySQL 分庫
因此大索引的拆分,也不是很難。相似分片的路由規則,根據具體業務指定便可。
這裏,咱們能夠定義 1000 個索引,分別名爲 project_一、project_二、project_3…
而後在 ES 集羣上面架一層簡單的 proxy 。裏面核心的業務路由規則能夠這樣:
index_id = project_id % 1000
總結一張圖: