雲計算之路-阿里雲上：部分服務器未及時續費形成docker swarm集羣故障

時間 2019-11-30

標籤計算之路阿里部分服務器未及時續形成 docker swarm 集羣故障欄目阿里巴巴简体版

原文原文鏈接

很是很是抱歉，因爲咱們的疏忽 —— docker swarm 集羣中的 2 臺服務器沒有及時續費，形成在夜裏0點被自動關機，從而引起整個 docker swarm 集羣故障，形成今天凌晨 0:30 ~ 7:50 左右跑在集羣上的站點沒法訪問，由此給您帶來很大很大的麻煩，懇請您的諒解。受此次故障影響的站點有閃存，博問，班級，園子，短信息，招聘，小組，網摘，openapi 。docker

昨天下午 14: 30 左右咱們收到了阿里雲的服務器到期通知，因爲打算更換這2臺到期的服務器，因此沒有當即進行續費，準備安排在晚上更換服務器，但晚上因爲忙去其餘事情忘了進行操做，從而釀成了此次大錯。咱們會深入吸收教訓，改進咱們的運維工做。api

此次故障也讓咱們對 docker swarm 集羣的穩定性有了更多的疑惑。以前遇到的故障都是因爲節點的 CPU 波動，而此次雖然有 2 個節點下線，但集羣中還有 3 個節點，當時負載極低，CPU 也沒出現波動，但整個集羣依然宕機。從這個角度至少說明 docker swarm 集羣並非真正意義上的分佈式集羣，對節點的運行情況依賴比較大，節點問題很容易影響到整個集羣。服務器

docker swarm 的不穩定也給咱們帶來了另一個困擾，咱們目前正在進行博客站點的 .NET Core 遷移工做，目前的博客站點用了 4 臺 4 核 8 G 的 Windows Server 2016 服務器在跑，遷移完成後要不要切換到 docker swarm 上？以前是有這樣的打算，但如今有點望而卻步。運維

另外，給阿里雲的一個建議，是否能夠將服務器過時關機的動做放在中午 12:00 進行，而不是放在夜裏 0:00 ，這樣即便忘了續費也能夠在中午吃飯的時間及時發現並處理，否則一錯過就是一晚上。分佈式