筆者一直維護的穩定基礎服務測試環境不穩定了,這能忍!盤他,雖然不必定能徹底盤的了。java
hrexternal 基礎服務對外提供公司員工獲取的多個接口,不少接口訪問頻率比較高,加了緩存,使用的是redis,可是redis最近2個月測試環境已經出問題了,時不時的報錯,以前流程平臺也報過錯,只不過是隨機的,不是必現的。當時也是沒有具體緣由,只是將底層的redis實例換掉了。而後就行了,這個服務呢因爲歷史緣由還有不少其餘服務是用的同一個redis實例,換的話須要好幾個服務一塊兒換,保障穩定性。
此次出現的問題更嚴重,由於每隔幾分鐘就會報錯,get報錯,put也會報錯。因此就跟進排查了下。
Redis版本:3.0.7
Jedis版本:2.8.0
異常以下:
git
這倆異常不常常遇到,可是一旦遇到確定是比較麻煩的。
筆者也是百度了不少,不少,從下面的連接中瞭解到一些信息:github
https://blog.csdn.net/aubdiy/article/details/53511410redis
也是按照上面的思路進行排查:apache
1.找DBA幫忙看redis是否有改動配置,沒有緩存
2.看超時時間,客戶端沒有單獨設置鏈接參數,默認超時時間應該是2秒。網絡
3.多是網絡問題。可是實際上不是。數據結構
4.根據jedis github上面的issues討論內容發現具體緣由也沒有說出來,可是出現這個問題的人確實挺多的。解決的人基本上都加了Jedis的鏈接配置了,恰好咱們的沒有加,還有可能解決。架構
這裏就揭開了針對於Jedis配置的一場探索之路。
首先看這個hrexternal服務的jedis初始化代碼:測試
/** * 初始化資源池 */ static { try { if (jedisSentinelPool ==null) { logger.info("init JedisSentinelPool is start...."); logger.info("redis_ip1:"+RedisConfig.redis_ip1+",redis_port1:"+RedisConfig.redis_port1); logger.info("redis_ip2:"+RedisConfig.redis_ip2+",redis_ip2:"+RedisConfig.redis_port2); logger.info("redis_ip3:"+RedisConfig.redis_ip3+",redis_ip2:"+RedisConfig.redis_port3); Set<String> sentinels = new HashSet<String>(); sentinels.add(new HostAndPort(RedisConfig.redis_ip1, Integer.parseInt(RedisConfig.redis_port1)).toString()); sentinels.add(new HostAndPort(RedisConfig.redis_ip2, Integer.parseInt(RedisConfig.redis_port2)).toString()); sentinels.add(new HostAndPort(RedisConfig.redis_ip3, Integer.parseInt(RedisConfig.redis_port3)).toString()); jedisSentinelPool = new JedisSentinelPool(RedisConfig.master, sentinels); logger.info(" init JedisSentinelPool is end...."); } }catch(Exception e){ logger.error("---->init JedisSentinelPool was failed,the msg is " + e.getMessage(), e); } } /** * 獲取資源 * @return * @throws Exception */ public static synchronized Jedis getJedis() throws Exception { try { if(jedisSentinelPool != null) { Jedis e = jedisSentinelPool.getResource(); return e; } else { return null; } } catch (Exception e) { e.printStackTrace(); logger.error(e); return null; } }
使用的是Jedis哨兵模式進行Jedis初始化,同時使用Jedis鏈接池。出現上面的異常不少緣由都跟鏈接池的鏈接有關。所以有必要分析一下Jedis的鏈接池和鏈接配置參數,以下圖是Jedis鏈接配置參數和Jedis的鏈接池對象的類圖:
其中只有GenericObjectPoolConfig,BaseObjectPoolConfig不是Jedis中的類,其餘都是。這倆類是jedis依賴的另外一個jar包:
<dependency> <groupId>org.apache.commons</groupId> <artifactId>commons-pool2</artifactId> <version>2.6.2</version> <type>jar</type> <scope>compile</scope> </dependency>
這個包是否是看着既熟悉又陌生。這個居然是java對象池池化技術的一個實現,相關文章以下:
http://www.javashuo.com/article/p-exmsbwzy-gd.html
固然本文的分析內容也包括這個,其中Jedis的一些配置參數也跟這個池化對象配置有關。
下面是我整理的一個配置參數介紹:
因爲上面代碼的配置是使用默認的參數,也就是說當連接出現問題的時候你是不知道是客戶端出的問題仍是服務端出的問題,跟DBA確認了一些服務端的參數:
client-output-buffer-limit normal 0 0 0
client-output-buffer-limit slave 512mb 128mb 60
client-output-buffer-limit pubsub 32mb 8mb 60
timeout 60 配置的60s。
因爲服務端沒有動配置,客戶端沒有動配置,也沒有動代碼。封裝Jedis操做的每一個API都檢查了,最後都有finally代碼塊保證jedis用完會close.
不存在連接泄露問題。那爲啥上面的錯會發生?爲啥穩定運行了很長時間最近才報錯。
固然幾個可能的方向
JedisPoolConfig jedisPoolConfig = new JedisPoolConfig(); jedisPoolConfig.setTestOnBorrow(true); jedisPoolConfig.setTestOnReturn(true); jedisPoolConfig.setTestOnCreate(true); jedisPoolConfig.setMaxTotal(50); jedisPoolConfig.setMaxIdle(10); jedisPoolConfig.setMinIdle(1); jedisPoolConfig.setMaxWaitMillis(3000); jedisSentinelPool = new JedisSentinelPool(RedisConfig.master, sentinels,jedisPoolConfig);
部署完以後,發現異常再也不出現。
雖然具體緣由沒有找到可是經過jedis開源代碼和issues能夠獲得一些結論:
https://github.com/xetorthio/jedis/issues/932
https://blog.csdn.net/SakuraInLuoJia/article/details/89874287
也就是說有2點建議
將客戶端版本與服務端版本儘可能保持一致。
固然若是你遇到這種問題的話,經過上面的方式仍是搞不定,說明你沒有找到正確的配置。即便有另外一份配置放在你面前,它可能也不能解決你的問題,但至少是多了一種嘗試。
本文由博客一文多發平臺 OpenWrite 發佈! 架構設計@工程設計@服務穩定性之路