ES寫入性能優化

時間 2019-11-08

原文原文鏈接

背景: 有1億多的用戶畫像中數倉須要導入ES。大多數字段都是sql統計數據，沒法區分哪些發生了變化，因此不能增量更新。只能天天全量刷數據。在刷數據的過程當中出現了更新緩慢、內存問題。因而作了一些寫入優化。java

解決方案：

1. 讀數據

首先要從數倉讀取出數據到內存。而後再組裝對象去ES刷數據字段比較多並且都須要查詢。嘗試了一下，即便limit 10，也須要耗時2分鐘。因此第一步導數據不能直接查詢。採用的是數倉到分佈式文件系統分片存儲。這一步已經有現成工具。1億數據導入到分片耗時3分鐘左右sql

2.組裝數據

將分片的數據讀到java內存中。再構造請求參數刷ES多線程

`問題：1.刷數據ES報413錯誤。ES建議每次bulk5~15M數據，這裏我每次批量提交5000條，bulk的時候發生的413 requets too large錯誤，google了一下，說是索引的時候段合併內存不夠。因而調整indices.breaker.fielddata.limit爲60%，增大堆內存，結果沒什麼用；也有說要調整 client_max_body_size 的，可是咱們的es是雲服務，無法改配置參數最終加大es的內存爲16G,再也不報這個錯誤。分佈式

2.以前寫業務代碼數據量通常不是很大，採用的是一次性把數據讀取到內存中。再作業務處理。可是此次在數據塞到一半的數據，先是系統響應變慢了，後來測試環境的系統掛了。經過過命令排查，發現List對象佔用了不少空間。因而複查代碼。發現是for循環一直往list填對象致使的內存泄露。因而限制了單個文件大小爲20M,一個文件一個文件地處理。 `工具