這兩天線上的ES集羣老是有問題,開始查找緣由
發現這段時間各個機器的負載都很高,原本但願經過jstack找到一些信息,但竟然提示‘Unable to open socket file: target process not responding or HotSpot VM not loaded’,度娘提示
應該是機器好久沒有重啓了,沒辦法,只能放棄這種方式。第一步就沒有走通。
繼續查發現幾臺機器 cpu 內存 都很高, 可是硬盤不太對勁,有一臺機器硬盤使用降低的厲害,而另外幾臺硬盤使用都是上升的,初步判斷是這臺機器出現問題後,開始轉移分片致使,
登陸到這臺機器,查找日誌,發現不少報錯, 直覺告訴我極可能是這臺機器,拖垮了集羣,報錯的內容大體是,沒法與主節點創建鏈接。繼續查爲何這臺機器會好好的失聯了呢,
繼續看監控,發現網絡io沒有特別的變化, 應該不是大批量的訪問形成的,可是線程數卻增長的很厲害,忽然想到ES還有一個慢查詢的日誌,翻看一看,果真有幾個查詢,特別耗時
有的甚至達到了2分鐘才返回結果,至此初步判斷是這種耗時的查詢,壓垮了這臺機器。讓對應的業務修改完後,繼續觀察。網絡