乾貨 | Elasticsearch Reindex性能提高10倍+實戰(轉)

轉自 https://blog.csdn.net/laoyang360/article/details/81589459html

一、reindex的速率極慢,是否有辦法改善?
如下問題來自社區:https://elasticsearch.cn/question/3782ios

問題1:reindex和snapshot的速率極慢,是否有辦法改善?
reindex和snapshot的速率比用filebeat或者kafka到es的寫入速率慢好幾個數量級(集羣寫入性能不存在瓶頸),reindex/snapshot的時候CPU仍是IO使用率都很低,是否是集羣受什麼參數限制了reindex和snapshot的速率?
reindex不論是跨集羣仍是同集羣上都很慢,大約3~5M/s的索引速率,會是什麼緣由致使的?性能優化

問題2:數據量幾十個G的場景下,elasticsearch reindex速度太慢,從舊索引導數據到新索引,當前最佳方案是什麼?
二、Reindex簡介
5.X版本後新增Reindex。Reindex能夠直接在Elasticsearch集羣裏面對數據進行重建,若是你的mapping由於修改而須要重建,又或者索引設置修改須要重建的時候,藉助Reindex能夠很方便的異步進行重建,而且支持跨集羣間的數據遷移。好比按天建立的索引能夠按期重建合併到以月爲單位的索引裏面去。固然索引裏面要啓用_source。網絡

POST _reindex
{
"source": {
"index": "twitter"
},
"dest": {
"index": "new_twitter"
}
}
三、緣由分析
reindex的核心作跨索引、跨集羣的數據遷移。
慢的緣由及優化思路無非包括:多線程

1)批量大小值可能過小。
須要結合堆內存、線程池調整大小;
2)reindex的底層是scroll實現,藉助scroll並行優化方式,提高效率;
3)跨索引、跨集羣的核心是寫入數據,考慮寫入優化角度提高效率。
四、Reindex提高遷移效率的方案
4.1 提高批量寫入大小值
默認狀況下,_reindex使用1000進行批量操做,您能夠在source中調整batch_size。併發

POST _reindex
{
"source": {
"index": "source",
"size": 5000
},
"dest": {
"index": "dest",
"routing": "=cat"
}
}
批量大小設置的依據:app

(1)使用批量索引請求以得到最佳性能。
批量大小取決於數據、分析和集羣配置,但一個好的起點是每批處理5-15 MB。
注意,這是物理大小。文檔數量不是度量批量大小的好指標。例如,若是每批索引1000個文檔,:
1)每一個1kb的1000個文檔是1mb。
2)每一個100kb的1000個文檔是100 MB。
這些是徹底不一樣的體積大小。
(2)逐步遞增文檔容量大小的方式調優。
1)從大約5-15 MB的大容量開始,慢慢增長,直到你看不到性能的提高。而後開始增長批量寫入的併發性(多線程等等)。
2)使用kibana、cerebro或iostat、top和ps等工具監視節點,以查看資源什麼時候開始出現瓶頸。若是您開始接收EsRejectedExecutionException,您的集羣就不能再跟上了:至少有一個資源達到了容量。要麼減小併發性,或者提供更多有限的資源(例如從機械硬盤切換到ssd固態硬盤),要麼添加更多節點。
4.2 藉助scroll的sliced提高寫入效率
Reindex支持Sliced Scroll以並行化重建索引過程。 這種並行化能夠提升效率,並提供一種方便的方法將請求分解爲更小的部分。異步

sliced原理(from medcl)
1)用過Scroll接口吧,很慢?若是你數據量很大,用Scroll遍歷數據那確實是接受不了,如今Scroll接口能夠併發來進行數據遍歷了。
2)每一個Scroll請求,能夠分紅多個Slice請求,能夠理解爲切片,各Slice獨立並行,利用Scroll重建或者遍歷要快不少倍。elasticsearch

slicing使用舉例
slicing的設定分爲兩種方式:手動設置分片、自動設置分片。
手動設置分片參見官網。
自動設置分片以下:ide

POST _reindex?slices=5&refresh
{
"source": {
"index": "twitter"
},
"dest": {
"index": "new_twitter"
}
}

slices大小設置注意事項:
1)slices大小的設置能夠手動指定,或者設置slices設置爲auto,auto的含義是:針對單索引,slices大小=分片數;針對多索引,slices=分片的最小值。
2)當slices的數量等於索引中的分片數量時,查詢性能最高效。slices大小大於分片數,非但不會提高效率,反而會增長開銷。
3)若是這個slices數字很大(例如500),建議選擇一個較低的數字,由於過大的slices 會影響性能。

4.3 ES副本數設置爲0
若是要進行大量批量導入,請考慮經過設置index.number_of_replicas來禁用副本:0。
主要緣由在於:複製文檔時,將整個文檔發送到副本節點,並逐字重複索引過程。 這意味着每一個副本都將執行分析,索引和潛在合併過程。
相反,若是您使用零副本進行索引,而後在提取完成時啓用副本,則恢復過程本質上是逐字節的網絡傳輸。 這比複製索引過程更有效。

PUT /my_logs/_settings
{
"number_of_replicas": 1
}

4.4 增長refresh間隔
若是你的搜索結果不須要接近實時的準確性,考慮先不要急於索引刷新refresh。能夠將每一個索引的refresh_interval到30s。
若是正在進行大量數據導入,能夠經過在導入期間將此值設置爲-1來禁用刷新。完成後不要忘記從新啓用它!
設置方法:

PUT /my_logs/_settings
{ "refresh_interval": -1 }

五、小結
實踐證實,比默認設置reindex速度能提高10倍+。
遇到相似問題,多從官網、原理甚至源碼的角度思考,逐步拆解分析。
只要思惟不滑坡,辦法總比問題多!

參考:
[1] Jest Reindex參考:http://t.cn/RDOyIc8
[2] 官網性能優化:http://t.cn/RDOyJqr
[3] 論壇討論:http://t.cn/RDOya3a

[4] 官網reindex介紹: https://www.elastic.co/guide/en/elasticsearch/reference/5.6/docs-reindex.html--------------------- 做者:銘毅天下(公衆號同名) 來源:CSDN 原文:https://blog.csdn.net/laoyang360/article/details/81589459 版權聲明:本文爲博主原創文章,轉載請附上博文連接!

相關文章
相關標籤/搜索