zookeeper客戶端KeeperErrorCode = ConnectionLoss異常問題排查歷險記

時間 2019-12-10

標籤 zookeeper 客戶端 keepererrorcode connectionloss 異常問題排查歷險欄目 Zookeeper 简体版

原文原文鏈接

通過線報，說前方應用有異常，致使了可用性變差。咦！討厭的異常，拋異常是程序猿最討厭的事情之一。java

通過收集異常信息以下node

2019-06-24 10:57:41.806 ERROR [hades-afe-opw,,,] 67380 --- [erFactory-Timer] c.t.p.s.s.TBScheduleManagerFactory       : KeeperErrorCode = ConnectionLoss for /taobao-pamirs-schedule/hades-earn-opw/factory/10.10.128.163$tjsr-2$9235182DDA104802AB642BC0CF418A22$0000003165

org.apache.zookeeper.KeeperException$ConnectionLossException: KeeperErrorCode = ConnectionLoss for /taobao-pamirs-schedule/hades-earn-opw/factory/10.10.114.63$tjsr-2$9235182DDA104802AB642BC0CF418A22$0000003165
 at org.apache.zookeeper.KeeperException.create(KeeperException.java:99)
 at org.apache.zookeeper.KeeperException.create(KeeperException.java:51)
 at org.apache.zookeeper.ZooKeeper.exists(ZooKeeper.java:1045)
 at org.apache.zookeeper.ZooKeeper.exists(ZooKeeper.java:1073)
 at com.taobao.pamirs.schedule.zk.ScheduleStrategyDataManager4ZK.loadManagerFactoryInfo(ScheduleStrategyDataManager4ZK.java:295)
 at com.taobao.pamirs.schedule.strategy.TBScheduleManagerFactory.refresh(TBScheduleManagerFactory.java:164)
 at com.taobao.pamirs.schedule.strategy.ManagerFactoryTimerTask.run(TBScheduleManagerFactory.java:438)
 at java.util.TimerThread.mainLoop(Timer.java:555)
 at java.util.TimerThread.run(Timer.java:505)

一看異常很神祕，apache

從異常的表面意思看就是去zookeeper查詢某個node是否存在而後爆出了 KeeperErrorCode = ConnectionLoss這個錯誤網絡

通過各類查詢說須要調優zookeeper，具體狀況你們能夠自行進行搜索。併發

咱們的實現立刻轉移到zookeeper上面，觀察zk的運行環境。app

咱們通過了以下各類過程處理（如下是未成功的處理）：框架

加內存：2G-->4G（雖然咱們知道加內存沒有用，本身內心安慰一下萬一能解決那，哈哈）分佈式

加CPU：4C-->6Coop

換磁盤空間並打開虛擬機讀寫限制spa

移動虛擬機主機位置

調整先後統計對比圖：

網絡 I/O：sar -n DEV 1

CPU I/O: vmstat 1