elasticsearch 基本介紹

時間 2019-11-09

原文原文鏈接

1. Elasticsearch的適用場景：數據庫

（1）相似百度百科的全文檢索，高亮，搜索推薦
（2）新聞類的搜索，用戶行爲日誌（點擊，瀏覽，收藏，評論）+社交網絡數據（對某某新聞的相關見解），數據分析，給到每篇新聞文章的做者，讓他知道他的文章的公衆反饋
（3）Stack Overflow（國外的程序異常討論論壇），IT問題，程序的報錯，提交上去，有人會跟你討論和回答，全文檢索，搜索相關問題和答案，程序報錯了，就會將報錯信息粘貼到裏面去，搜索有沒有對應的答案
（4）GitHub（開源代碼管理），搜索上千億行代碼
（5）電商網站，檢索商品
（6）日誌數據分析，logstash採集日誌，ES進行復雜的數據分析（ELK技術，elasticsearch+logstash+kibana）
（7）商品價格監控網站，用戶設定某商品的價格閾值，當低於該閾值的時候，發送通知消息給用戶
（8）BI系統，商業智能，Business Intelligence。好比說有個大型商場集團，BI，分析一下某某區域最近3年的用戶消費金額的趨勢以及用戶羣體的組成構成，產出相關的數張報表，**區，最近3年，每一年消費金額呈現100%的增加，並且用戶羣體85%是高級白領，開一個新商場。ES執行數據分析和挖掘，Kibana進行數據可視化
（9）站內搜索（電商，招聘，門戶，等等），IT系統搜索（OA，CRM，ERP，等等），數據分析（ES熱門的一個使用場景）

服務器

2. elasticsearch的核心概念網絡

（1）Near Realtime（NRT）：近實時，兩個意思，從寫入數據到數據能夠被搜索到有一個小延遲（大概1秒）；基於es執行搜索和分析能夠達到秒級

（2）Cluster：集羣，包含多個節點，每一個節點屬於哪一個集羣是經過一個配置（集羣名稱，默認是elasticsearch）來決定的，對於中小型應用來講，剛開始一個集羣就一個節點很正常
（3）Node：節點，集羣中的一個節點，節點也有一個名稱（默認是隨機分配的），節點名稱很重要（在執行運維管理操做的時候），默認節點會去加入一個名稱爲「elasticsearch」的集羣，若是直接啓動一堆節點，那麼它們會自動組成一個elasticsearch集羣，固然一個節點也能夠組成一個elasticsearch集羣

（4）Document&field：文檔，es中的最小數據單元，一個document能夠是一條客戶數據，一條商品分類數據，一條訂單數據，一般用JSON數據結構表示，每一個index下的type中，均可以去存儲多個document。一個document裏面有多個field，每一個field就是一個數據字段。

（5）Index：索引，包含一堆有類似結構的文檔數據，好比能夠有一個客戶索引，商品分類索引，訂單索引，索引有一個名稱。一個index包含不少document，一個index就表明了一類相似的或者相同的document。好比說創建一個product index，商品索引，裏面可能就存放了全部的商品數據，全部的商品document。數據結構

（6）Type：類型，每一個索引裏均可以有一個或多個type，type是index中的一個邏輯數據分類，一個type下的document，都有相同的field，好比博客系統，有一個索引，能夠定義用戶數據type，博客數據type，評論數據type。

商品index，裏面存放了全部的商品數據，商品document

可是商品分不少種類，每一個種類的document的field可能不太同樣，好比說電器商品，可能還包含一些諸如售後時間範圍這樣的特殊field；生鮮商品，還包含一些諸如生鮮保質期之類的特殊field

type，日化商品type，電器商品type，生鮮商品type

日化商品type：product_id，product_name，product_desc，category_id，category_name
電器商品type：product_id，product_name，product_desc，category_id，category_name，service_period
生鮮商品type：product_id，product_name，product_desc，category_id，category_name，eat_period

每個type裏面，都會包含一堆document

（7）shard：單臺機器沒法存儲大量數據，es能夠將一個索引中的數據切分爲多個shard，分佈在多臺服務器上存儲。有了shard就能夠橫向擴展，存儲更多數據，讓搜索和分析等操做分佈到多臺服務器上去執行，提高吞吐量和性能。每一個shard都是一個lucene index。運維

（8）replica：任何一個服務器隨時可能故障或宕機，此時shard可能就會丟失，所以能夠爲每一個shard建立多個replica副本。replica能夠在shard故障時提供備用服務，保證數據不丟失，多個replica還能夠提高搜索操做的吞吐量和性能。
primary shard（創建索引時一次設置，不能修改，默認5個），
replica shard（隨時修改數量，默認1個），默認每一個索引10個shard，5個primary shard，5個replica shard，最小的高可用配置，是2臺服務器。

elasticsearch

3. elasticsearch核心概念 vs. 數據庫核心概念性能

大體可按照下面的對應關係理解網站