基於公司發展硬性需求,生產VM服務器要統一遷移到ZStack 虛擬化服務器。檢查本身項目使用的服務器,其中zookeeper集羣中招,因此須要進行遷移。java
爲了使遷移不對業務產生影響,因此最好是採用擴容
-> 縮容
的方式進行。linux
說明:
1.原生產集羣爲VM-1,VM-2,VM-3組成一個3節點的ZK集羣;
2.對該集羣擴容,增長至6節點(新增ZS-1,ZS-2,ZS-3),進行數據同步完成;
3.進行縮容,下掉原先來的三個節點(VM-1,VM-2,VM-3);
4.替換nginx解析地址。
OK! 目標很明確,過程也很清晰,而後開幹。
複製代碼
對新增的三臺服務器進行zk環境配置,和老集羣配置同樣便可,最好使用同一版本(版主使用的是3.4.6);nginx
對老節點的zoo.cfg 增長新集羣的地址(逐一增長),而後對新增長節點逐一重啓。shell
ZS-1
啓動成功,zkServer.sh status 報錯,用zkServer.sh status查看,反饋以下異常:[root@localhost bin]# ./zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /usr/zookeeper/zookeeper-3.4.6/bin/../conf/zoo.cfg
Error contacting service. It is probably not running.
複製代碼
此時查看數據,數據同步正常
ZS-1 數據同步正常,可是沒法查看節點的狀態信息;
複製代碼
懷疑是由於老節點沒有重啓的緣由;此時去查看原集羣節點信息,發現原集羣節點狀態異常。經排查定位,原集羣的狀態一直處於異常狀態。apache
初步定位緣由多是原集羣的選舉存在異常,致使新節點沒法正常歸入,繼續排查。api
恢復集羣初始狀態,若是集羣節點的狀態一直無法正常查看。OK 繼續定位...bash
如下方法來自於網絡:服務器
第1、zoo.cfg文件配置:dataLogDir指定的目錄未被建立。網絡
1.zoo.cfg
[root@SIA-215 conf]# cat zoo.cfg
...
dataDir=/app/zookeeperdata/data
dataLogDir=/app/zookeeperdata/log
...
2.路徑
[root@SIA-215 conf]# cd /app/zookeeperdata/
[root@SIA-215 zookeeperdata]# ll
total 8
drwxr-xr-x 3 root root 4096 Apr 23 19:59 data
drwxr-xr-x 3 root root 4096 Aug 29 2015 log
複製代碼
經排查 排除該因素。app
第2、myid文件中的整數格式不對,或者與zoo.cfg中的server整數不對應。
[root@SIA-215 data]# cd /app/zookeeperdata/data
[root@SIA-215 data]# cat myid
2[root@SIA-215 data]#
複製代碼
定位排查後排除不是該緣由。
第3、防火牆未關閉。
使用service iptables stop 關閉防火牆; 使用service iptables status確認; 使用chkconfig iptables off禁用防火牆。
確認防火牆是關閉的。
[root@localhost ~]# service iptables status
iptables: Firewall is not running.
確認防火牆是關閉的
複製代碼
第4、端口被佔用。
[root@localhost bin]# netstat -tunlp | grep 2181
tcp 0 0 :::12181 :::* LISTEN 30035/java
tcp 0 0 :::22181 :::* LISTEN 30307/java
確認端口沒有被佔用
複製代碼
第5、zoo.cfg文件中主機名出錯。
經測試環境測試,主機名正確,多域名解析也正常,不存在此問題
複製代碼
第6、hosts文件中,本機的主機名有兩個對應,只需保留主機名和ip地址的映射。
經測試環境測試,主機名正確,多域名解析也正常,不存在此問題 排除。
複製代碼
第7、zkServer.sh裏的nc命令有問題。
多是機器上沒有安裝nc命令,還有種說法是在zkServer.sh裏找到這句:
STAT=`echo stat | nc localhost $(grep clientPort 「$ZOOCFG」 | sed -e ‘s/.*=//’) 2> /dev/null| grep Mode`
在nc與localhost之間加上 -q 1 (是數字1而不是字母l)
zookeeper版本是3.4.6,zkServer.sh里根本沒有這一句(獲取狀態的語句沒有用nc命令)
# -q is necessary on some versions of linux where nc returns too quickly, and no stat result is output
clientPortAddress=`grep "^[[:space:]]*clientPortAddress[^[:alpha:]]" "$ZOOCFG" | sed -e 's/.*=//'`
if ! [ $clientPortAddress ]
then
clientPortAddress="localhost"
fi
clientPort=`grep "^[[:space:]]*clientPort[^[:alpha:]]" "$ZOOCFG" | sed -e 's/.*=//'`
STAT=`"$JAVA" "-Dzookeeper.log.dir=${ZOO_LOG_DIR}" "-Dzookeeper.root.logger=${ZOO_LOG4J_PROP}" \
-cp "$CLASSPATH" $JVMFLAGS org.apache.zookeeper.client.FourLetterWordMain \
$clientPortAddress $clientPort srvr 2> /dev/null \
| grep Mode`
if [ "x$STAT" = "x" ]
then
echo "Error contacting service. It is probably not running."
exit 1
else
echo $STAT
exit 0
fi
;;
複製代碼
目前現象老集羣數據同步正常,也能進行leader選舉(從日誌獲取),可是沒法查看節點狀態,同異常信息;進行集羣擴容,數據不能同步。
一、嘗試進行foreground 模式啓動,選擇一臺非主節點進行重啓,能夠前臺查看啓動日誌。
zkserver.sh start-foreground
節點啓動正常,無異常輸出。
複製代碼
二、查看shell腳本:分析zkServer.sh。
STAT=`"$JAVA" "-Dzookeeper.log.dir=${ZOO_LOG_DIR}" "-Dzookeeper.root.logger=${ZOO_LOG4J_PROP}" \
-cp "$CLASSPATH" $JVMFLAGS org.apache.zookeeper.client.FourLetterWordMain \
$clientPortAddress $clientPort srvr 2> /dev/null \
| grep Mode`
if [ "x$STAT" = "x" ]
then
echo "Error contacting service. It is probably not running."
exit 1
else
echo $STAT
exit 0
fi
;;
複製代碼
$STAT
獲取存在異常 若是STAT變量爲空,則會顯示Error contacting service. It is probably not running.: OK,那就分析下這個$STAT
究竟是什麼鬼?if [ 「x$STAT」 = 「x」 ]
then
echo 「Error contacting service. It is probably not running.」
exit 1
else
echo $STAT
exit 0
fi
複製代碼
三、嘗試用shell的debug模式 看下執行過程:
++ grep '^[[:space:]]*clientPort[^[:alpha:]]' /app/zookeeper-3.4.6/bin/../conf/zoo.cfg
+ clientPort=5181
++ grep Mode
++ /opt/jdk1.8.0_131/bin/java -Dzookeeper.log.dir=. -Dzookeeper.root.logger=INFO,CONSOLE -cp '/app/zookeeper-3.4.6/bin/../build/classes:/app/zookeeper-3.4.6/bin/../build/lib/*.jar:/app/zookeeper-3.4.6/bin/../lib/slf4j-log4j12-1.6.1.jar:/app/zookeeper-3.4.6/bin/../lib/slf4j-api-1.6.1.jar:/app/zookeeper-3.4.6/bin/../lib/netty-3.7.0.Final.jar:/app/zookeeper-3.4.6/bin/../lib/log4j-1.2.16.jar:/app/zookeeper-3.4.6/bin/../lib/jline-0.9.94.jar:/app/zookeeper-3.4.6/bin/../zookeeper-3.4.6.jar:/app/zookeeper-3.4.6/bin/../src/java/lib/*.jar:/app/zookeeper-3.4.6/bin/../conf:.:/opt/jdk1.8.0_131/lib/dt.jar:/opt/jdk1.8.0_131/lib/tools.jar' org.apache.zookeeper.client.FourLetterWordMain localhost 5181 srvr
+ STAT=
+ ‘[‘ x = x ‘]’
+ echo ‘Error contacting service. It is probably not running.’
Error contacting service. It is probably not running.
+ exit 1
複製代碼
四、修改shell腳本:分析zkServer.sh 在腳本總增長輸出STAT 內容,此次咱們不進行過濾。
STAT1=`"$JAVA" "-Dzookeeper.log.dir=${ZOO_LOG_DIR}" "-Dzookeeper.root.logger=${ZOO_LOG4J_PROP}" \
-cp "$CLASSPATH" $JVMFLAGS org.apache.zookeeper.client.FourLetterWordMain \
$clientPortAddress $clientPort srvr 2> test.log \ `
echo "$STAT1"
複製代碼
[root@localhost bin]# ./zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /usr/zookeeper/zookeeper-3.4.10/bin/../conf/zoo.cfg
Error contacting service. It is probably not running.
複製代碼
in thread 「main」 java.lang.NumberFormatException: For input string: 「2181
at java.lang.NumberFormatException.forInputString(NumberFormatException.java:65)
at java.lang.Integer.parseInt(Integer.java:492)
at java.lang.Integer.parseInt(Integer.java:527)
at org.apache.zookeeper.client.FourLetterWordMain.main(FourLetterWordMain.java:76)
複製代碼
zkServer.sh裏有這麼一句:
clientPort=`grep 「^[[:space:]]*clientPort[^[:alpha:]]」 「$ZOOCFG」 | sed -e ‘s/.*=//’`
grep 「^[[:space:]]*clientPort[^[:alpha:]]」 「$ZOOCFG」 | sed -e ‘s/.*=//’在執行過程當中,實際命令以下:
grep ‘^[[:space:]]*clientPort[^[:alpha:]]’ /app/zookeeper-3.4.6/bin/../conf/zoo.cfg | sed -e ‘s/.*=//’
複製代碼
最終能夠基本確認配置文件存在問題。
替換配置文件:重啓 問題解決。
存在緣由多是編輯zoo.cfg 編碼格式等等引發文件內容解析異常。
做者: 毛正衛