昨天 18:00 以後咱們將自建 docker swarm 集羣上的全部應用都切換到了阿里雲 swarm 容器服務(非 swarm mode ,不支持 overlay 網絡)的集羣上。web
今天晚上咱們經過阿里雲容器服務控制檯將1個節點移出集羣(當時集羣中一共有9個節點)docker
沒想到這樣一個常規操做居然形成了博問站點故障網絡
故障時間 20:53-20:55 左右,由此給您帶來麻煩,請您諒解。阿里雲
發現故障時,咱們經過阿里雲容器服務控制檯「從新部署」博問應用後恢復正常。3d
故障相關日誌以下:日誌
2018-3-22 20:53:28 伸縮服務q_web失敗:Conflict: The name q_web_1 is already assigned. You have to delete (or rename) that container to be able to assign q_web_1 to a container again. 2018-3-22 20:53:28 伸縮服務q_web失敗:Conflict: The name q_web_2 is already assigned. You have to delete (or rename) that container to be able to assign q_web_2 to a container again.
另外,咱們又發現重啓集羣中的1個節點也會造跑在這個節點上的全部應用故障,而不像咱們自建 docker swarm 集羣那樣會自動將容器遷移到其餘節點。並且,節點重啓後應用不能自動恢復,須要手工一個一個「從新部署」應用。code