Unrecoverable error: corrupted cluster config file.

時間 2019-12-08

標籤 unrecoverable error corrupted cluster config file 简体版

原文原文鏈接

緣起

　　正在歡樂的逗着孩子玩耍，忽然間來了一通電話，值班人員告訴我誤重啓了一臺服務器，是我負責的服務，感受都要嚇飛了，趕忙打開電腦查看次服務器上跑的是什麼業務，node

不看不知道，一看嚇一跳，尼瑪，是著名的redis cluster集羣中的一臺服務器，此時此刻心中一萬個草泥馬奔騰而過。。。。python

剖析

　　此集羣是26臺512G內存搭建的redis cluster，數據量已經達到了4T，每一個服務器上篇對應24個實例，每一個實例的內存配置爲20G。redis

首先我登陸了一臺集羣中的另一臺服務器B，經過B鏈接上redis 集羣，使用cluster info 命令查看發現集羣狀態是ok的，顯然已經自動failover。不幸中的大幸，辛虧是這個集羣，服務器

此集羣是有副本的，解決了單點故障問題，如果其它兩個集羣中的主機後果不敢想象。此時此刻就展現出HA的重要性了，Down掉一臺服務器，集羣總體不受影響，另外服務請求日誌

可能會出現少許的錯誤，由於有可能槽位再切換中。blog

恢復

　　我登陸剛剛重啓的這個服務器以後，使用腳本啓動全部的實例，大約過了30分鐘，22個實例啓動完畢，數據徹底加載到內存，而且實例再集羣中的狀態已經恢復，此過程是自動的，redis cluster 仍是很給力從這方面來說。當我使用 redis-cli -p 6381 cluster nodes|grep fail 的時候發現還有兩個實例是fail狀態。趕忙檢查。內存

53faad9cd4257f33eaaa92f40f7439bf2f30db21 10.34.2.15:6396 slave,fail 8269ee58f563a5961755ee7f782794c7f79f8077 1506431668362 1506431655787 908 disconnected
2cc8f7f49bb7f28dc383b6113080bae4f3b2e375 10.34.2.15:6388 slave,fail ceb54aabf39b0c8c88a205294724be76295c4ab9 1506431660074 1506431647510 1272 disconnected

故障主機 10.34.2.15 的 6396redis日誌中發現了以下的報錯：class

5927:M 26 Sep 21:39:37.527 # Unrecoverable error: corrupted cluster config file.

檢查cluster生成的node文件，發現文件中缺失信息，最後一行出現了半行不完整的數據記錄。個人處理方法是將全部的都清理掉，只保留myself那行。集羣

而後再次啓動redis實例，則加載成功。登錄

反思

　　cluster的配置文件出現不完整信息緣由是由於服務器硬重啓致使，而服務器重啓是人爲的誤操做致使，最根本的仍是在人。慢一點能夠，可是千萬不要搞錯啊。。。。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。