雲計算之路-阿里雲上：3個manager節點異常形成 docker swarm 集羣宕機

時間 2019-11-21

標籤計算之路阿里 manager 節點異常形成 docker swarm 集羣宕機欄目阿里巴巴简体版

原文原文鏈接

今天 11:29 - 11:39 左右，docker swarm 集羣 3 個 manager 節點同時出現異常，形成整個集羣宕機，由此給您帶來很大的麻煩，請您諒解。docker

受這次故障影響的站點有：博問，閃存，班級，園子，短信息，招聘，小組，網摘，新聞，openapiapi

最近咱們剛剛確認咱們全部遇到的 docker swarm 不穩定問題都與部分節點的異常情況有關，即便是一直讓咱們很是頭疼的 docker-flow-proxy 路由問題，也是由於路由容器所在的節點出現異常情況，只要經過阿里雲控制檯重啓這臺節點服務器，就能恢復正常。服務器

咱們的 docker swarm 集羣節點部署是這樣的：5臺阿里雲2核4G服務器做爲 manager 節點，1臺阿里雲4核8G服務器做爲 worker 節點。基於這樣的部署，咱們想即便部分節點出現異常情況也不會帶來影響，發現後重啓節點服務器就好了。但沒想到今天3個節點同時出現異常情況。。。最終經過阿里雲控制檯重啓這些異常節點後恢復正常。阿里雲

對於節點的這種異常情況，咱們目前毫無頭緒，不知是咱們的應用問題、仍是docker的問題、仍是阿里雲服務器的問題，目前惟一的線索是：節點服務器持續運行時間越長，出現異常情況的機率越高，出現異常情況後經過阿里雲控制檯重啓服務器立馬恢復正常。blog

對於目前沒法肯定是船的問題、仍是集裝箱的問題、仍是貨物的問題的困難處境，咱們的臨時解決方法是改進對節點服務器的監控，及時發現出現異常情況的節點進行重啓操做。路由

更新：根據咱們的進一步分析，更保險的臨時解決方法是當發現一個節點出現異常情況時要重啓全部 manager 節點服務器。部署