Elasticsearch 基礎理論 & 配置調優

時間 2021-01-19

標籤 html java node linux nginx web 數據庫 json bootstrap vim 欄目日誌分析简体版

原文原文鏈接

1、簡介
html

ElasticSearch是一個基於Lucene的搜索服務器。它提供了一個分佈式多用戶能力的全文搜索引擎，基於RESTful web接口。Elasticsearch是用Java開發的，並做爲Apache許可條款下的開放源碼發佈，是當前流行的企業級搜索引擎。java

它不但包括了全文搜索功能，還能夠進行如下工做:node

分佈式實時文件存儲，並將每個字段都編入索引，使其能夠被搜索。linux
實時分析的分佈式搜索引擎。nginx
能夠擴展到上百臺服務器，處理PB級別的結構化或非結構化數據。web

使用案例：數據庫

維基百科使用Elasticsearch來進行全文搜作並高亮顯示關鍵詞，以及提供search-as-you-type、did-you-mean等搜索建議功能。json
英國衛報使用Elasticsearch來處理訪客日誌，以便能將公衆對不一樣文章的反應實時地反饋給各位編輯。bootstrap
StackOverflow將全文搜索與地理位置和相關信息進行結合，以提供more-like-this相關問題的展示。vim
GitHub使用Elasticsearch來檢索超過1300億行代碼。
天天，Goldman Sachs使用它來處理5TB數據的索引，還有不少投行使用它來分析股票市場的變更。

2、數據寫入過程

Lucene 把每次生成的倒排索引，叫作一個段(segment)。而後另外使用一個 commit 文件，記錄索引內全部的 segment。而生成 segment 的數據來源，則是內存中的 buffer。

一、數據寫入 --> 進入ES內存 buffer (同時記錄到translog）--> 生成倒排索引分片（segment）

二、將 buffer 中的 segment 先同步到文件系統緩存中，而後再刷寫到磁盤

問1：

ES如何作到實時檢索？

因爲在buffer中的索引片先同步到文件系統緩存，再刷寫到磁盤，所以在檢索時能夠直接檢索文件系統緩存，保證了實時性。

這一步刷到文件系統緩存的步驟，在 Elasticsearch 中，是默認設置爲 1 秒間隔的，對於大多數應用來講，幾乎就至關因而實時可搜索了。

不過對於 ELK 的日誌場景來講，並不須要如此高的實時性，而是須要更快的寫入性能。咱們能夠經過 /_settings 接口或者定製 template 的方式，加大 refresh_interval 參數。

# curl -XPOST http://127.0.0.1:9200/logstash-2015.06.21/_settings -d'
{ "refresh_interval": "10s" }

問2:

當segment從文件系統緩存同步到磁盤時發生了錯誤怎麼辦？數據會不會丟失？

因爲Elasticsearch 在把數據寫入到內存 buffer 的同時，其實還另外記錄了一個 translog日誌，若是在這期間故障發生時，Elasticsearch會從commit位置開始，恢復整個translog文件中的記錄，保證數據的一致性。

等到真正把 segment 刷到磁盤，且 commit 文件進行更新的時候， translog 文件才清空。這一步，叫作 flush。一樣，Elasticsearch 也提供了 /_flush 接口。

Elasticsearch 的flush操做主要經過如下幾個參數控制:

默認設置爲：每 30 分鐘主動進行一次 flush，或者當 translog 文件大小大於 512MB 時主動觸發flush。

這兩個行爲，能夠分別經過

index.translog.flush_threshold_period 每隔多長時間執行一次flush（默認30m）

index.translog.flush_threshold_size 當事務日誌大小到達此預設值，則執行flush。（默認512mb）

index.translog.flush_threshold_ops 當事務日誌累積到多少條數據後flush一次。

問3:

索引數據的一致性經過 translog 保證。那麼 translog 文件本身呢？

Elasticsearch 2.0 之後爲了保證不丟失數據，每次 index、bulk、delete、update 完成的時候，必定觸發刷新 translog 到磁盤上，纔給請求返回 200 OK。這個改變在提升數據安全性的同時固然也下降了一點性能。

若是你不在乎這點可能性，仍是但願性能優先，能夠在 index template 裏設置以下參數：

"index.translog.durability": "async"

3、segment merge 對寫入性能的影響

ES 會不斷在後臺運行任務，主動將這些零散的 segment 作數據歸併，儘可能讓索引內只保有少許的，每一個都比較大的，segment 文件。這個過程是有獨立的線程來進行的，並不影響新 segment 的產生。

當歸並完成，較大的這個 segment 刷到磁盤後，commit 文件作出相應變動，刪除以前幾個小 segment，改爲新的大 segment。等檢索請求都從小 segment 轉到大 segment 上之後，刪除沒用的小 segment。這時候，索引裏 segment 數量就降低了

segment 歸併的過程，須要先讀取 segment，歸併計算，再寫一遍 segment，最後還要保證刷到磁盤。能夠說，這是一個很是消耗磁盤 IO 和 CPU 的任務。因此，ES 提供了對歸併線程的限速機制，確保這個任務不會過度影響到其餘任務。

默認狀況下，歸併線程的限速配置 indices.store.throttle.max_bytes_per_sec 是 20MB。對於寫入量較大，磁盤轉速較高，甚至使用 SSD 盤的服務器來講，這個限速是明顯太低的。對於 ELK Stack 應用，建議能夠適當調大到 100MB或者更高。

經過API的設置方式，也能夠寫在配置文件中。

curl -XPUT http://127.0.0.1:9200/_cluster/settings -d'
{
    "persistent" : {
        "indices.store.throttle.max_bytes_per_sec" : "100mb"
    }
}'

用於控制歸併線程的數目，推薦設置爲cpu核心數的一半。若是以爲本身磁盤性能跟不上，能夠下降配置，省得IO狀況瓶頸。

index.merge.scheduler.max_thread_count

歸併策略

歸併線程是按照必定的運行策略來挑選 segment 進行歸併的。主要有如下幾條：

index.merge.policy.floor_segment 默認 2MB，小於這個大小的 segment，優先被歸併。

index.merge.policy.max_merge_at_once 默認一次最多歸併 10 個 segment

index.merge.policy.max_merge_at_once_explicit 默認 optimize 時一次最多歸併 30 個 segment。

index.merge.policy.max_merged_segment 默認 5 GB，大於這個大小的 segment，不用參與歸併。optimize 除外。

optimize 接口

既然默認的最大 segment 大小是 5GB。那麼一個比較龐大的數據索引，就必然會有爲數很多的 segment 永遠存在，這對文件句柄，內存等資源都是極大的浪費。

可是因爲歸併任務太消耗資源，因此通常不太選擇加大 index.merge.policy.max_merged_segment 配置，而是在負載較低的時間段，經過 optimize 接口，強制歸併 segment。

curl -XPOST http://127.0.0.1:9200/logstash-2015-06.10/_optimize?max_num_segments=1

因爲 optimize 線程對資源的消耗比普通的歸併線程大得多，因此，絕對不建議對還在寫入數據的熱索引執行這個操做。

4、副本分片的存儲過程

默認狀況下ES經過對每一個數據的id值進行哈希計算，對索引的主分片取餘，就是數據實際應該存儲的分片ID。

因爲取餘這個計算，徹底依賴於分母，因此致使 ES 索引有一個限制，索引的主分片數，不能夠隨意修改。由於一旦主分片數不同，因此數據的存儲位置計算結果都會發生改變，索引數據就徹底不可讀了。

有副本配置狀況下，ES的寫入流程

一、客戶端請求發送給Node1節點，圖中的Node1是Master節點，實際環境中也能夠不是（一般Master節點和Data_Node部署在不一樣的服務器）。

二、Node 1 用數據的 _id 取餘計算獲得應該講數據存儲到 P0 上。經過 cluster state 信息發現 P0 的主分片已經分配到了 Node 3 上。Node 1 轉發請求數據給 Node 3。

三、Node3 完成請求數據的索引過程，存入主分片 P0。而後並行轉發數據給分配有 P0 的副本分片（R0）的 Node1 和 Node2。當收到任一節點彙報副本分片數據寫入成功，Node 3 即返回給初始的接收節點 Node 1，宣佈數據寫入成功。Node 1 返回成功響應給客戶端。

副本配置和分片配置不同，是能夠隨時調整的。有些較大的索引，甚至能夠在作 optimize 前，先把副本所有取消掉，等 optimize 完後，再從新開啓副本，節約單個 segment 的重複歸併消耗。

curl -XPUT http://127.0.0.1:9200/logstash-mweibo-2015.05.02/_settings -d '{
    "index": { "number_of_replicas" : 0 }
}'

5、fielddata

indices.fielddata.cache.size 節點用於 fielddata 的最大內存，若是 fielddata 達到該閾值，就會把舊數據交換出去。該參數能夠設置百分比或者絕對值。默認設置是不限制，因此強烈建議設置該值，好比 10%。

indices.fielddata.cache.expire 這個參數絕對絕對不要設置！

indices.breaker.fielddata.limit 默認值是JVM堆內存的60%,注意爲了讓設置正常生效，必定要確保 indices.breaker.fielddata.limit 的值大於 indices.fielddata.cache.size 的值。不然的話，fielddata 大小一到 limit 閾值就報錯，就永遠道不了 size 閾值，沒法觸發對舊數據的交換任務了。

6、全文搜索

ES 對搜索請求，有簡易語法和完整語法兩種方式。簡易語法做爲之後在 Kibana 上最經常使用的方式。

# 命令行示例:
curl -XGET http://127.0.0.1:9200/logstash-2015.06.21/log/_search?q=first

# curl指令 -請求方式 http://服務器IP:端口/索引庫名稱/_type(索引類型)/_search?q=querystring 語法

?q=後面跟的是querystring 語法，這種語法在Kibana上是通用的

querystring 語法解析：

全文檢索：直接寫搜索的單詞，如 q=Shanghai

單字段的全文檢索：好比知道想檢索的信息可能出如今某字段中，能夠在搜索單詞以前加上字段名和冒號，如：q=name:tuchao

單字段的精確檢索：在搜索單詞先後加雙引號，好比 clientip:"192.168.12.1"

多個檢索條件的組合：可使用 NOT, AND 和 OR 來組合檢索，注意必須是大寫。好比

http://127.0.0.1:9200/logstash-nginxacclog-2016.09.23/_search?q=status:>400 AND size:168

字段是否存在：_exists_:user 表示要求 user 字段存在，_missing_:user 表示要求 user 字段不存在；

通配符：用 ? 表示單字母，* 表示任意個字母。好比 fir?t mess*

正則: 不建議使用

近似搜索：用 ~ 表示搜索單詞可能有一兩個字母寫的不對，請 ES 按照類似度返回結果。好比 frist~；

7、映射的定製

Elasticsearch 是一個 schema-less 的系統，會盡可能根據 JSON 源數據的基礎類型猜想你想要的字段類型映射。

若是你對這種動態生成的映射關係不滿意，或者想要使用一些更高級的映射設置，那麼就須要使用自定義映射。

ES 能夠隨時根據數據中的新字段來建立新的映射關係。咱們也能夠在尚未正式數據寫入以前，先建立一個基礎的映射。等後續數據有其餘字段時，ES 也同樣會自動處理。

映射的建立方式以下：

curl -XPUT http://127.0.0.1:9200/logstash-2015.06.20/_mapping -d '
{
  "mappings": {
    "syslog" : {
      "properties" : {
        "@timestamp" : {
          "type" : "date"
        },
        "message" : {
          "type" : "string"
        },
        "pid" : {
          "type" : "long"
        }
      }
    }
  }
}'

注意：對於已存在的映射，ES 的自動處理僅限於新字段出現。已經生成的字段映射，是不可變動的。若是確實須要，能夠參考reindex接口

而若是是新增一個字段映射的更新，那仍是能夠經過 /_mapping 接口直接完成的：

curl -XPUT http://127.0.0.1:9200/logstash-2015.06.21/_mapping/syslog -d '
{
  "properties" : {
    "syslogtag" : {
      "type" :    "string",
      "index":    "not_analyzed"
    }
  }
}'

這裏只須要單獨寫這個新字段的內容就夠了。ES 會自動合併進去。

刪除映射

刪除數據並不表明會刪除數據的映射。好比：

curl -XDELETE http://127.0.0.1:9200/logstash-2015.06.21/syslog

刪除了索引下 syslog 的所有數據，可是 syslog 的映射還在。刪除映射(同時也就刪掉了數據)的命令是：

curl -XDELETE http://127.0.0.1:9200/logstash-2015.06.21/_mapping/syslog

固然，若是刪除整個索引，那映射也是同時被清除的。

查看已有數據的映射

咱們用 logstash 寫入 ES 的數據，都會根據 logstash 自帶的 template，生成一個頗有學習意義的映射：

curl -XGET http://127.0.0.1:9200/logstash-nginxacclog-2016.09.20/_mapping/

特殊字段

ES有一些默認的特殊字段，這些字段統一以_下劃線開頭。如_index，_type，_id。默認不開啓的還有 _ttl，_timestamp，_size，_parent 等；這裏介紹兩個對咱們索引和檢索性能都有較大影響的：

_all

_all 裏存儲了各字段的數據內容。其做用是，在檢索的時候，若是沒法或者未指明具體搜索哪一個字段的數據，那麼 ES 默認就會是從 _all 裏去查找。

對於日誌場景，若是你的日誌劃分出來的字段比較少且數目固定。那麼，徹底能夠關閉掉 _all 功能，節省這部分 IO 和 CPU。

"_all" : {
    "enabled" : false
}

_source

_source 裏存儲了該條記錄的 JSON 源數據內容。這部份內容只是按照 ES 接收到的內容原樣存儲下來，並不通過索引過程。對於 ES 的請求過程來講，它不參與 Query 階段，而只用於 Fetch 階段。咱們在 GET 或者 /_search 時看到的數據內容，都是從 _source 裏獲取到的。

因此，雖然 _source 也重複了一遍索引中的數據，通常咱們並不建議關閉這個功能。由於一旦關閉，你搜索的結果除了一個 _id，啥都看不到。對於日誌場景，意義不是很大。

固然，也有少數場景是能夠關閉 _source 的：

把 ES 做爲時間序列數據庫使用，只要聚合統計結果，不要源數據內容。

把 ES 做爲純檢索工具使用，_id 對應的內容在 HDFS 上另外存儲，搜索後使用所得 _id 去 HDFS 上讀取內容。

8、動態模板映射

當你有一類類似的數據字段，想要統一設置其映射，就能夠用到這項功能動態模板映射(dynamic_templates)。

   "_default_" : {
      "dynamic_templates" : [ {
        "message_field" : {
          "mapping" : {
            "index" : "analyzed",
            "omit_norms" : true,
            "store" : false,
            "type" : "string"
          },
          "match" : "*msg",
          "match_mapping_type" : "string"
        }
      }, {
        "string_fields" : {
          "mapping" : {
            "index" : "not_analyzed",
            "ignore_above" : 256,
            "store" : false,
            "doc_values" : true,
            "type" : "string"
          },
          "match" : "*",
          "match_mapping_type" : "string"
        }
      } ],
      "properties" : {
      }
    }

這樣只會匹配字符串類型字段名以 msg 結尾的，都會通過全文索引，其餘字符串字段則進行精確索引。同理，還能夠繼續書寫其餘類型(long, float, date 等)的 match_mapping_type 和 match。

索引模板

對每一個但願自定義映射的索引，都要定時提早經過發送 PUT 請求的方式建立索引的話，未免太過麻煩。ES 對此設計了索引模板功能。咱們能夠針對同一類索引，定製相同的模板。

模板中的內容包括兩大類，setting(設置)和 mapping(映射)。setting 部分，多爲在 elasticsearch.yml 中能夠設置全局配置的部分，而 mapping 部分，則是這節以前介紹的內容。以下爲定義全部以 te 開頭的索引的模板：

curl -XPUT http://localhost:9200/_template/template_1 -d '
{
    "template" : "te*",
    "settings" : {
        "number_of_shards" : 1
    },
    "mappings" : {
        "type1" : {
            "_source" : { "enabled" : false }
        }
    }
}'

同時，索引模板是有序合併的。若是咱們在同一類索引裏，又想單獨修改某一小類索引的一兩處單獨設置，能夠再累加一層模板：

curl -XPUT http://localhost:9200/_template/template_2 -d '
{
    "order" : 1,
    "template" : "te*",
    "settings" : {
        "number_of_shards" : 2
    },
    "mappings" : {
        "type1" : {
            "_all" : { "enabled" : false }
        }
    }
}'

默認的 order 是 0，那麼新建立的 order 爲 1 的 template_2 在合併時優先級大於 template_1。最終，對tete*/type1 的索引模板效果至關於：

{
    "settings" : {
        "number_of_shards" : 2
    },
    "mappings" : {
        "type1" : {
            "_source" : { "enabled" : false },
            "_all" : { "enabled" : false }
        }
    }
}

注1：模版合併能夠用在，當不想改變原模版，又想微調模版的相關參數時可以使用。建立一個小模版，設置相關修改的參數，保證template值設置和原模版相同，因爲兩個模版的template相同，那麼當有新的索引被建立時會匹配到兩個模版，這時兩個模版的配置將會合並，order值大的模版參數，將會覆蓋order值小的模版參數。

關於建立小模版的配置編寫須要注意幾個點

一、先認真分析原模版要修改的幾個段值的嵌套關係（建議使用網頁的json解析工具輔助查看）

二、小模版不須要寫原模版全部內容，只須要寫想變動的幾個字段值

三、小模版不可和原模版同名

四、能夠經過請求ES輸出原模版json參考，更改，可是須要刪除一些導入不兼容的字段（下面注3會提到）

注2：從ES中導出的模版沒法直接複製導入，格式有差別

經過訪問ES中已有模版logstash3，獲得如下模版json

http://10.10.1.90:9200/_template/logstash3?pretty

經過刪除以上我標紅的字符，也就是模版名稱段和別名段和多餘的符號。就能夠變成如下能夠導入的格式。

curl -XPUT http://127.0.0.1:9200/_template/logstash5 -d '
{
    "order" : 1,
    "template" : "logstash-*",
    "settings" : {
      "index" : {
        "refresh_interval" : "120s"
      }
    },
    "mappings" : {
      "_default_" : {
        "_all" : {
          "enabled" : false
        }
      }
    }
}'

關鍵參數解釋 :

"order":1 優先級

"template":"logstash-*" 匹配索引庫的 Pattern

"aliases" : { } 別名段

變動模版配置也是同樣的：

一、訪問該模版獲得json

curl http://10.10.1.90:9200/_template/logstash3?pretty

二、變動配置，刪除不兼容的字符（以上標紅的字符）

三、刪除原模版，從新導入

# 刪除模版
curl -XDELETE http://127.0.0.1:9200/_template/logstash3
 
# 導入
curl -XPUT http://127.0.0.1:9200/_template/logstash3 -d '

      修改後的template json
'

9、elasticsearch 經常使用配置參數總結

# ---------------------------------- Cluster -----------------------------------
# Use a descriptive name for your cluster:

# 集羣名稱，用於定義哪些elasticsearch節點屬同一個集羣。
cluster.name: bigdata

# ------------------------------------ Node ------------------------------------

# 節點名稱，用於惟一標識節點，不可重名
node.name: server3


# 一、如下列出了三種集羣拓撲模式，以下:
# 若是想讓節點不具有選舉主節點的資格，只用來作數據存儲節點。
node.master: false
node.data: true


# 二、若是想讓節點成爲主節點，且不存儲任何數據，只做爲集羣協調者。
node.master: true
node.data: false


# 三、若是想讓節點既不成爲主節點,又不成爲數據節點,那麼可將他做爲搜索器,從節點中獲取數據,生成搜索結果等
node.master: false
node.data: false

# 這個配置限制了單機上能夠開啓的ES存儲實例的個數,當咱們須要單機多實例，則須要把這個配置賦值2，或者更高。
#node.max_local_storage_nodes: 1


# ----------------------------------- Index ------------------------------------

# 設置索引的分片數,默認爲5  "number_of_shards" 是索引建立後一次生成的,後續不可更改設置
index.number_of_shards: 5

# 設置索引的副本數,默認爲1
index.number_of_replicas: 1

# 索引的刷新頻率，默認1秒，過小會形成索引頻繁刷新，新的數據寫入就慢了。（此參數的設置須要在寫入性能和實時搜索中取平衡）一般在ELK場景中須要將值調大一些好比60s，在有_template的狀況下，須要設置在應用的_template中才生效。 
index.refresh_interval: 120s

# ----------------------------------- Paths ------------------------------------

# 數據存儲路徑，能夠設置多個路徑用逗號分隔，有助於提升IO。 # path.data: /home/path1,/home/path2
path.data: /home/elk/server3_data

# 日誌文件路徑
path.logs: /var/log/elasticsearch

# 臨時文件的路徑
path.work: /path/to/work

# ----------------------------------- Memory -------------------------------------

# 確保 ES_MIN_MEM 和 ES_MAX_MEM 環境變量設置爲相同的值,以及機器有足夠的內存分配給Elasticsearch
# 注意:內存也不是越大越好,通常64位機器,最大分配內存別才超過32G

# 當JVM開始寫入交換空間時（swapping）ElasticSearch性能會低下,你應該保證它不會寫入交換空間
# 設置這個屬性爲true來鎖定內存,同時也要容許elasticsearch的進程能夠鎖住內存,linux下能夠經過 `ulimit -l unlimited` 命令

bootstrap.mlockall: true

# 節點用於 fielddata 的最大內存，若是 fielddata 
# 達到該閾值，就會把舊數據交換出去。該參數能夠設置百分比或者絕對值。默認設置是不限制，因此強烈建議設置該值，好比 10%。
indices.fielddata.cache.size: 50mb

# indices.fielddata.cache.expire  這個參數絕對絕對不要設置！

indices.breaker.fielddata.limit 默認值是JVM堆內存的60%,注意爲了讓設置正常生效，必定要確保 indices.breaker.fielddata.limit 的值大於 indices.fielddata.cache.size 的值。不然的話，fielddata 大小一到 limit 閾值就報錯，就永遠道不了 size 閾值，沒法觸發對舊數據的交換任務了。

#------------------------------------ Network And HTTP -----------------------------

# 設置綁定的ip地址,能夠是ipv4或ipv6的,默認爲0.0.0.0
network.bind_host: 192.168.0.1

# 設置其它節點和該節點通訊的ip地址,若是不設置它會自動設置,值必須是個真實的ip地址
network.publish_host: 192.168.0.1

# 同時設置bind_host和publish_host上面兩個參數
network.host: 192.168.0.1

# 設置集羣中節點間通訊的tcp端口,默認是9300
transport.tcp.port: 9300

# 設置是否壓縮tcp傳輸時的數據，默認爲false,不壓縮
transport.tcp.compress: true

# 設置對外服務的http端口,默認爲9200
http.port: 9200

# 設置請求內容的最大容量,默認100mb
http.max_content_length: 100mb

# ------------------------------------ Translog -------------------------------------

#當事務日誌累積到多少條數據後flush一次。
index.translog.flush_threshold_ops: 50000

# --------------------------------- Discovery --------------------------------------

# 這個參數決定了要選舉一個Master至少須要多少個節點，默認值是1，推薦設置爲 N/2 + 1，N是集羣中節點的數量，這樣能夠有效避免腦裂
discovery.zen.minimum_master_nodes: 1


# 在java裏面GC是很常見的，但在GC時間比較長的時候。在默認配置下，節點會頻繁失聯。節點的失聯又會致使數據頻繁重傳，甚至會致使整個集羣基本不可用。

# discovery參數是用來作集羣之間節點通訊的，默認超時時間是比較小的。咱們把參數適當調大，避免集羣GC時間較長致使節點的丟失、失聯。

discovery.zen.ping.timeout: 200s

discovery.zen.fd.ping_timeout: 200s

discovery.zen.fd.ping.interval: 30s

discovery.zen.fd.ping.retries: 6

# 設置集羣中節點的探測列表，新加入集羣的節點須要加入列表中才能被探測到。 
discovery.zen.ping.unicast.hosts: ["10.10.1.244:9300",]

# 是否打開廣播自動發現節點，默認爲true
discovery.zen.ping.multicast.enabled: false


indices.store.throttle.type: merge
indices.store.throttle.max_bytes_per_sec: 100mb

10、調優建議

調優集羣的穩定性

一、增大系統最大打開文件描述符數，65535

二、關閉swap，鎖定進程地址空間，防止內存swap

JVM調優

一、 -Xms 和 -Xmx 設置成相同值

# 設置方法
vim /etc/sysconfig/elasticsearch
ES_HEAP_SIZE=1g # 根據機器的實際狀況設置

二、Heap Size不超過物理內存的一半，且小於32G

調優節點丟失問題

因爲在Java裏面GC是很常見的，但在GC時間比較長的時候。在默認配置下，節點會頻繁失聯。節點的失聯又會致使數據頻繁重傳，甚至會致使整個集羣基本不可用。咱們能夠經過參數調整來避免這些問題。

discovery參數ElasticSearch是用來作集羣之間發現的，默認設置的超時時間是比較小的。咱們把參數適當調大，避免集羣GC時間較長致使節點的丟失、失聯。

調優集羣腦裂問題

建議採用角色分離的方法。

Master 節點不作數據節點

數據節點也沒有資格競選Master節點。

即不作Master節點，又不作數據節點，就是Client節點，用於響應請求，查詢數據。

由於角色混合在一塊兒會產生一個問題，當某個數據節點成爲Master以後，它立刻就會往其餘節點發送數據以保證副本的冗餘。若是數據量很大的狀況下，這個Master就會一直在傳送數據，而其餘節點確認Master的請求可能就會被丟掉或者超時，這個時候其餘節點就會從新選舉新Master，形成集羣腦裂。

調優索引寫入速率

Index調優

index.refresh_interval: 120s 索引速率與搜索實時直接的平衡

index.translog.flush_threshold_ops: 50000 事務日誌的刷新間隔，適當增大可下降磁盤IO

indices.store.throttle.max_bytes_per_sec: 100mb 當磁盤IO比較充足，可增大索引合併的限流值

這幾個參數的調優原理，上面都有詳細的解釋。

提升查詢速度

嚴格限制 fielddata cache 佔用的內存，最好徹底不用。

索引平常維護

定時刪除過時索引，可使用工具，或者寫腳本跑計劃任務

關閉暫時無需搜索的索引

對再也不更新的索引進行optimize

參考文獻:

http://it.dataguru.cn/article-9560-1.html

http://kibana.logstash.es/content/elasticsearch/principle/realtime.html

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。