很是很是抱歉,因爲咱們的疏忽 —— docker swarm 集羣中的 2 臺服務器沒有及時續費,形成在夜裏0點被自動關機,從而引起整個 docker swarm 集羣故障,形成今天凌晨 0:30 ~ 7:50 左右跑在集羣上的站點沒法訪問,由此給您帶來很大很大的麻煩,懇請您的諒解。受此次故障影響的站點有 閃存,博問,班級,園子,短信息,招聘,小組,網摘,openapi 。docker
昨天下午 14: 30 左右咱們收到了阿里雲的服務器到期通知,因爲打算更換這2臺到期的服務器,因此沒有當即進行續費,準備安排在晚上更換服務器,但晚上因爲忙去其餘事情忘了進行操做,從而釀成了此次大錯。咱們會深入吸收教訓,改進咱們的運維工做。api
此次故障也讓咱們對 docker swarm 集羣的穩定性有了更多的疑惑。以前遇到的故障都是因爲節點的 CPU 波動,而此次雖然有 2 個節點下線,但集羣中還有 3 個節點,當時負載極低,CPU 也沒出現波動,但整個集羣依然宕機。從這個角度至少說明 docker swarm 集羣並非真正意義上的分佈式集羣,對節點的運行情況依賴比較大,節點問題很容易影響到整個集羣。服務器
docker swarm 的不穩定也給咱們帶來了另一個困擾,咱們目前正在進行博客站點的 .NET Core 遷移工做,目前的博客站點用了 4 臺 4 核 8 G 的 Windows Server 2016 服務器在跑,遷移完成後要不要切換到 docker swarm 上?以前是有這樣的打算,但如今有點望而卻步。運維
另外,給阿里雲的一個建議,是否能夠將服務器過時關機的動做放在中午 12:00 進行,而不是放在夜裏 0:00 ,這樣即便忘了續費也能夠在中午吃飯的時間及時發現並處理,否則一錯過就是一晚上。分佈式