前言
涵蓋各大公司會問到的面試點,同時隨着版本的升級,可能也會有一些面試題更新,也會同步保持更新,由於篇幅緣由(實際上是我懶,哈哈)因此列了一部分答案,全部的答案見下文,總共485頁合計20個技術點,文末自取pdf.node
一、elasticsearch 瞭解多少,說說大家公司 es 的集羣架構,索引數據大小,分片有多少,以及一些調優手段 。面試
面試官:想了解應聘者以前公司接觸的 ES 使用場景、規模,有沒有作過比較大規模的索引設計、規劃、調優。算法
解答:api
如實結合本身的實踐場景回答便可。緩存
好比:ES 集羣架構 13 個節點,索引根據通道不一樣共 20+索引,根據日期,每日遞增 20+,索引:10 分片,每日遞增 1 億+數據,每一個通道天天索引大小控制:150GB 以內。數據結構
僅索引層面調優手段:架構
1.一、設計階段調優併發
一、根據業務增量需求,採起基於日期模板建立索引,經過 roll over API 滾動索app
引;運維
二、使用別名進行索引管理;
三、天天凌晨定時對索引作 force_merge 操做,以釋放空間;
四、採起冷熱分離機制,熱數據存儲到 SSD,提升檢索效率;冷數據按期進行 shrink
操做,以縮減存儲;
五、採起 curator 進行索引的生命週期管理;
六、僅針對須要分詞的字段,合理的設置分詞器;
七、Mapping 階段充分結合各個字段的屬性,是否須要檢索、是否須要存儲等。
1.二、寫入調優
一、寫入前副本數設置爲 0;
二、寫入前關閉 refresh_interval 設置爲-1,禁用刷新機制;
三、寫入過程當中:採起 bulk 批量寫入;
四、寫入後恢復副本數和刷新間隔;
五、儘可能使用自動生成的 id。
1.三、查詢調優
一、禁用 wildcard;
二、禁用批量 terms(成百上千的場景);
三、充分利用倒排索引機制,能 keyword 類型儘可能 keyword;
四、數據量大時候,能夠先基於時間敲定索引再檢索;
五、設置合理的路由機制。
1.四、其餘調優
部署調優,業務調優等。
上面的說起一部分,面試者就基本對你以前的實踐或者運維經驗有所評估了。
二、elasticsearch 的倒排索引是什麼
面試官:想了解你對基礎概念的認知。
解答:通俗解釋一下就能夠。
傳統的咱們的檢索是經過文章,逐個遍歷找到對應關鍵詞的位置。
而倒排索引,是經過分詞策略,造成了詞和文章的映射關係表,這種詞典+映射表即爲倒排索引。
有了倒排索引,就能實現 o(1)時間複雜度的效率檢索文章了,極大的提升了檢索效率
學術的解答方式:
倒排索引,相反於一篇文章包含了哪些詞,它從詞出發,記載了這個詞在哪些文檔中出現過,由兩部分組成——詞典和倒排表。
加分項:倒排索引的底層實現是基於:FST(Finite State Transducer)數據結構。
lucene 從 4+版本後開始大量使用的數據結構是 FST。
FST 有兩個優勢:
一、空間佔用小。經過對詞典中單詞前綴和後綴的重複利用,壓縮了存儲空間;
二、查詢速度快。O(len(str))的查詢時間複雜度。
三、elasticsearch 索引數據多了怎麼辦,如何調優,部署
面試官:想了解大數據量的運維能力。
解答:索引數據的規劃,應在前期作好規劃,正所謂「設計先行,編碼在後」,這樣纔能有效的避免突如其來的數據激增致使集羣處理能力不足引起的線上客戶檢索或者其餘業務受到影響。
如何調優,正如問題 1 所說,這裏細化一下:
3.1 動態索引層面
基於模板+時間+rollover api 滾動建立索引,舉例:設計階段定義:blog 索引的模板格式爲:blog_index_時間戳的形式,天天遞增數據。
這樣作的好處:不至於數據量激增致使單個索引數據量很是大,接近於上線 2 的32 次冪-1,索引存儲達到了 TB+甚至更大。
一旦單個索引很大,存儲等各類風險也隨之而來,因此要提早考慮+及早避免.
3.2 存儲層面
冷熱數據分離存儲,熱數據(好比最近 3 天或者一週的數據),其他爲冷數據。對於冷數據不會再寫入新數據,能夠考慮按期 force_merge 加 shrink 壓縮操做,節省存儲空間和檢索效率。
3.3 部署層面
一旦以前沒有規劃,這裏就屬於應急策略。
結合 ES 自身的支持動態擴展的特色,動態新增機器的方式能夠緩解集羣壓力,**注意:**若是以前主節點等規劃合理,不須要重啓集羣也能完成動態新增的。
四、elasticsearch 是如何實現 master 選舉的
面試官:想了解 ES 集羣的底層原理,再也不只關注業務層面了。
解答:
前置前提:
一、只有候選主節點(master:true)的節點才能成爲主節點。
二、最小主節點數(min_master_nodes)的目的是防止腦裂。
這個我看了各類網上分析的版本和源碼分析的書籍,雲裏霧裏。
覈對了一下代碼,核心入口爲 findMaster,選擇主節點成功返回對應 Master,不然返回 null。
選舉流程大體描述以下:
第一步:確認候選主節點數達標,elasticsearch.yml 設置的值.
discovery.zen.minimum_master_nodes;
第二步:比較:先斷定是否具有 master 資格,具有候選主節點資格的優先返回;若兩節點都爲候選主節點,則 id 小的值會主節點。注意這裏的 id 爲 string 類型。
五、詳細描述一下 Elasticsearch 索引文檔的過程
面試官:想了解 ES 的底層原理,再也不只關注業務層面了。
解答:
這裏的索引文檔應該理解爲文檔寫入 ES,建立索引的過程。
文檔寫入包含:單文檔寫入和批量 bulk 寫入,這裏只解釋一下:單文檔寫入流程。
第一步:客戶寫集羣某節點寫入數據,發送請求。(若是沒有指定路由/協調節點,請求的節點扮演路由節點的角色。)
第二步:節點 1 接受到請求後,使用文檔_id 來肯定文檔屬於分片 0。請求會被轉到另外的節點,假定節點 3。所以分片 0 的主分片分配到節點 3 上。
第三步:節點 3 在主分片上執行寫操做,若是成功,則將請求並行轉發到節點 1和節點 2 的副本分片上,等待結果返回。全部的副本分片都報告成功,節點 3 將向協調節點(節點 1)報告成功,節點 1 向請求客戶端報告寫入成功。
若是面試官再問:第二步中的文檔獲取分片的過程?
回答:藉助路由算法獲取,路由算法就是根據路由和文檔 id 計算目標的分片 id 的過程。
1shard = hash(_routing) % (num_of_primary_shards)
六、詳細描述一下 Elasticsearch 搜索的過程?
面試官:想了解 ES 搜索的底層原理,再也不只關注業務層面了。
解答:
搜索拆解爲「query then fetch」 兩個階段。query 階段的目的:定位到位置,但不取。
步驟拆解以下:
一、假設一個索引數據有 5 主+1 副本 共 10 分片,一次請求會命中(主或者副本
分片中)的一個。
二、每一個分片在本地進行查詢,結果返回到本地有序的優先隊列中。
三、第 2)步驟的結果發送到協調節點,協調節點產生一個全局的排序列表。
fetch 階段的目的:取數據。
路由節點獲取全部文檔,返回給客戶端。
七、Elasticsearch 在部署時,對 Linux 的設置有哪些優化方法?
面試官:想了解對 ES 集羣的運維能力。
解答:
一、關閉緩存 swap;
二、堆內存設置爲:Min(節點內存/2, 32GB);
三、設置最大文件句柄數;
四、線程池+隊列大小根據業務須要作調整;
五、磁盤存儲 raid 方式——存儲有條件使用 RAID10,增長單節點性能以及避免單
節點存儲故障。
八、elasticsearch 是如何實現master選舉的.
面試官: 想了解ES集羣的底層原理,再也不只關注業務層面了.
解答:
前置前提:
1.只有候選主節點(master: true) 的節點才能成爲主節點。
2.最小主節點數(min master. nodes)的目的是防止腦裂。
這個我看了各類網上分析的版本和源碼分析的書籍,雲裏霧裏.覈對了-下代碼,核心入口爲findMaster, 選擇主節點成功返回對應Master,不然返回null.選舉流程大體描述以下:
第一步:確認候選主節點數達標,elas ticsearch.yml設置的值.
discovery.zen.minimum_ master. nodes;
第二步:比較:先斷定是否具有master資格,具有候選主節點資格的優先返回;若兩節點都爲候選主節慮,則id小的值會主節點。注意這裏的id爲string 類型。題外話:獲取節點id的方法。
1GET 1. cat/nodes?v&h-ip.port.heapPercentheapMax.id,name 2ip port heapPercent heapMax id name
九、Elasticsearch 中的節點(好比共20個),其中的10個,選了一個master,另外10個選了另-個master,怎麼辦?
1.當集羣master候選數量不小於3個時,能夠經過設置最少投票經過數量(discovery.zen.minimum_ master_ nodes)超過全部候選節點一半以上來解決腦裂問題.
二、當候選數量爲兩個時,只能修改成惟一的一 -個master候選,其餘做爲data節點,避免腦裂問題.
十、詳細描述-下Elasticsearch更新和刪除文檔的過程。
1.刪除和更新也都是寫操做,可是Elasticsearch中的文檔是不可變的,所以不能被刪除或者改動以展現其變動;
2.磁盤上的每一個段都有一個相應的.del文件。當刪除請求發送後,文檔並無真的被刪除,而是在.del文件中被標記爲刪除。該文檔依然能匹配查詢,可是會在結果中被過濾掉。當段合併時,在.del文件中被標記爲刪除的文檔將不會被寫入新段.
3.在新的文檔被建立時, Elasticsearch會爲該文檔指定一個版本號, 當執行更新時,舊版本的文檔在.del文件中被標記爲刪除,新版本的文檔被索引到- .個新段.舊版本的文檔依然能匹配查詢,可是會在結果中被過濾掉.
十一、是否瞭解字典樹?
十二、對於GC方面,在使用Elasticsearch時要注意什麼?
1三、Elasticsearch對於大數據量(上億量級)的聚合如何實現?
1四、在併發狀況下,Elasticsearch 若是保證讀寫-致?
1五、如何監控Elasticsearch集羣狀態?
1六、介紹一下大家的個性化搜索方案?
上面的這些面試題都整理成了PDF文檔,但願能幫助到你面試前的複習並找到一個好的工做,相對來講也節省了你在網上搜索資料的時間來學習!!!
附歡迎關注個人公種號:it資源之家 ,掃描下面二維碼便可領取更多一線大廠Java面試題資料!
最後
歡迎你們評論區一塊兒交流,相互提高;整理資料不易,若是喜歡文章記得點個贊哈,感謝你們支持!!!