乾貨 | BAT等一線大廠 Elasticsearch面試題解讀

時間 2020-08-02

標籤乾貨 bat 一線大廠 elasticsearch 面試解讀欄目日誌分析简体版

原文原文鏈接

題記
git上發現了網友總結的Elasticsearch BAT大廠面試題。只有題目，部分有答案，但不全。正好抽出一些時間一塊兒梳理一下。node

既然是面試題，每一個人都會有本身的結合業務場景的答案，沒有很是標準的答案。
歡迎你們留言拍磚指正。git

一、elasticsearch瞭解多少，說說大家公司es的集羣架構，索引數據大小，分片有多少，以及一些調優手段。
面試官：想了解應聘者以前公司接觸的ES使用場景、規模，有沒有作過比較大規模的索引設計、規劃、調優。
解答：
如實結合本身的實踐場景回答便可。
好比：ES集羣架構13個節點，索引根據通道不一樣共20+索引，根據日期，每日遞增20+，索引：10分片，每日遞增1億+數據，
每一個通道天天索引大小控制：150GB以內。面試

僅索引層面調優手段：算法

1.一、設計階段調優
1）根據業務增量需求，採起基於日期模板建立索引，經過roll over API滾動索引；api

2）使用別名進行索引管理；緩存

3）天天凌晨定時對索引作force_merge操做，以釋放空間；數據結構

4）採起冷熱分離機制，熱數據存儲到SSD，提升檢索效率；冷數據按期進行shrink操做，以縮減存儲；架構

5）採起curator進行索引的生命週期管理；app

6）僅針對須要分詞的字段，合理的設置分詞器；運維

7）Mapping階段充分結合各個字段的屬性，是否須要檢索、是否須要存儲等。 ……..

1.二、寫入調優
1）寫入前副本數設置爲0；

2）寫入前關閉refresh_interval設置爲-1，禁用刷新機制；

3）寫入過程當中：採起bulk批量寫入；

4）寫入後恢復副本數和刷新間隔；

5）儘可能使用自動生成的id。

1.三、查詢調優
1）禁用wildcard；

2）禁用批量terms（成百上千的場景）；

3）充分利用倒排索引機制，能keyword類型儘可能keyword；

4）數據量大時候，能夠先基於時間敲定索引再檢索；

5）設置合理的路由機制。

1.四、其餘調優
部署調優，業務調優等。

上面的說起一部分，面試者就基本對你以前的實踐或者運維經驗有所評估了。

二、elasticsearch的倒排索引是什麼
面試官：想了解你對基礎概念的認知。
解答：通俗解釋一下就能夠。

傳統的咱們的檢索是經過文章，逐個遍歷找到對應關鍵詞的位置。
而倒排索引，是經過分詞策略，造成了詞和文章的映射關係表，這種詞典+映射表即爲倒排索引。
有了倒排索引，就能實現o（1）時間複雜度的效率檢索文章了，極大的提升了檢索效率。

學術的解答方式：

倒排索引，相反於一篇文章包含了哪些詞，它從詞出發，記載了這個詞在哪些文檔中出現過，由兩部分組成——詞典和倒排表。

加分項：倒排索引的底層實現是基於：FST（Finite State Transducer）數據結構。
lucene從4+版本後開始大量使用的數據結構是FST。FST有兩個優勢：

1）空間佔用小。經過對詞典中單詞前綴和後綴的重複利用，壓縮了存儲空間；

2）查詢速度快。O(len(str))的查詢時間複雜度。

三、elasticsearch 索引數據多了怎麼辦，如何調優，部署
面試官：想了解大數據量的運維能力。
解答：索引數據的規劃，應在前期作好規劃，正所謂「設計先行，編碼在後」，這樣纔能有效的避免突如其來的數據激增致使集羣處理能力不足引起的線上客戶檢索或者其餘業務受到影響。
如何調優，正如問題1所說，這裏細化一下：

3.1 動態索引層面
基於模板+時間+rollover api滾動建立索引，舉例：設計階段定義：blog索引的模板格式爲：blog_index_時間戳的形式，天天遞增數據。

這樣作的好處：不至於數據量激增致使單個索引數據量很是大，接近於上線2的32次冪-1，索引存儲達到了TB+甚至更大。

一旦單個索引很大，存儲等各類風險也隨之而來，因此要提早考慮+及早避免。

3.2 存儲層面
冷熱數據分離存儲，熱數據（好比最近3天或者一週的數據），其他爲冷數據。
對於冷數據不會再寫入新數據，能夠考慮按期force_merge加shrink壓縮操做，節省存儲空間和檢索效率。

3.3 部署層面
一旦以前沒有規劃，這裏就屬於應急策略。
結合ES自身的支持動態擴展的特色，動態新增機器的方式能夠緩解集羣壓力，注意：若是以前主節點等規劃合理，不須要重啓集羣也能完成動態新增的。

四、elasticsearch是如何實現master選舉的
面試官：想了解ES集羣的底層原理，再也不只關注業務層面了。
解答：
前置前提：

1）只有候選主節點（master：true）的節點才能成爲主節點。

2）最小主節點數（min_master_nodes）的目的是防止腦裂。

這個我看了各類網上分析的版本和源碼分析的書籍，雲裏霧裏。
覈對了一下代碼，核心入口爲findMaster，選擇主節點成功返回對應Master，不然返回null。選舉流程大體描述以下：

第一步：確認候選主節點數達標，elasticsearch.yml設置的值discovery.zen.minimum_master_nodes；

第二步：比較：先斷定是否具有master資格，具有候選主節點資格的優先返回；若兩節點都爲候選主節點，則id小的值會主節點。注意這裏的id爲string類型。

題外話：獲取節點id的方法。

1GET /_cat/nodes?v&h=ip,port,heapPercent,heapMax,id,name
2ip port heapPercent heapMax id name
3127.0.0.1 9300 39 1.9gb Hk9w Hk9wFwU

五、詳細描述一下Elasticsearch索引文檔的過程
面試官：想了解ES的底層原理，再也不只關注業務層面了。
解答：
這裏的索引文檔應該理解爲文檔寫入ES，建立索引的過程。
文檔寫入包含：單文檔寫入和批量bulk寫入，這裏只解釋一下：單文檔寫入流程。

記住官方文檔中的這個圖。

第一步：客戶寫集羣某節點寫入數據，發送請求。（若是沒有指定路由/協調節點，請求的節點扮演路由節點的角色。）

第二步：節點1接受到請求後，使用文檔_id來肯定文檔屬於分片0。請求會被轉到另外的節點，假定節點3。所以分片0的主分片分配到節點3上。

第三步：節點3在主分片上執行寫操做，若是成功，則將請求並行轉發到節點1和節點2的副本分片上，等待結果返回。全部的副本分片都報告成功，節點3將向協調節點（節點1）報告成功，節點1向請求客戶端報告寫入成功。

若是面試官再問：第二步中的文檔獲取分片的過程？
回答：藉助路由算法獲取，路由算法就是根據路由和文檔id計算目標的分片id的過程。

1shard = hash(_routing) % (num_of_primary_shards)

六、詳細描述一下Elasticsearch搜索的過程？
面試官：想了解ES搜索的底層原理，再也不只關注業務層面了。
解答：
搜索拆解爲「query then fetch」兩個階段。
query階段的目的：定位到位置，但不取。
步驟拆解以下：

1）假設一個索引數據有5主+1副本共10分片，一次請求會命中（主或者副本分片中）的一個。

2）每一個分片在本地進行查詢，結果返回到本地有序的優先隊列中。

3）第2）步驟的結果發送到協調節點，協調節點產生一個全局的排序列表。

fetch階段的目的：取數據。
路由節點獲取全部文檔，返回給客戶端。

七、Elasticsearch在部署時，對Linux的設置有哪些優化方法
面試官：想了解對ES集羣的運維能力。
解答：

1）關閉緩存swap;

2）堆內存設置爲：Min（節點內存/2, 32GB）;

3)設置最大文件句柄數；

4）線程池+隊列大小根據業務須要作調整；

5）磁盤存儲raid方式——存儲有條件使用RAID10，增長單節點性能以及避免單節點存儲故障。

八、lucence內部結構是什麼？
面試官：想了解你的知識面的廣度和深度。
解答：

Lucene是有索引和搜索的兩個過程，包含索引建立，索引，搜索三個要點。能夠基於這個脈絡展開一些。

小結看到題目後，感受熟悉又陌生。真正要在面試的時候講出來，須要下一番功夫深刻理解。爲了求證回答的相對準確性，我翻看了源碼、官方文檔和部分有深度的博文。Elasticsearch路還很長，別無他法，惟有死磕！

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。