多事之秋-最近在阿里雲上遇到的問題:負載均衡失靈、服務器 CPU 100%、被 DDoS 攻擊

昨天 22:00~22:30 左右與 23:30~00:30 左右,有1臺服役多年的阿里雲負載均衡忽然失靈,形成經過這臺負載均衡訪問博客站點的用戶遭遇 502, 503, 504 ,由此給您帶來麻煩,請您諒解。docker

問題很是奇怪,從表現看,彷佛負載均衡與後端服務器之間的內網通訊出現了問題。有時健康檢查成功,但轉發請求到後端服務器會失敗;後端服務器明明正常,有時健康檢查卻失敗;最糟糕的時候,全部後端服務器都健康檢查失敗。而其餘使用一樣後端服務器的負載均衡都沒出現這個問題,最終經過下線這臺負載均衡解決了問題。後端

這臺負載均衡是咱們 2013 年剛上阿里雲時購買的,服役多年,以前從未出現這個問題,如今看來只能被迫讓它退役了。服務器

昨天上午發現,咱們用於部署除博客站點以外全部其餘應用的 docker swarm 集羣中全部服務器 CPU 100% 。負載均衡

這個 CPU 100% 與一般的 CPU 100% 有很大的不同,雖然是 100% ,但不影響應用的正常運行。今年3月份也遇到到一樣的問題,當時經過 top 命令查看是 sy (system cpu time spent in kernel space) 佔用了不少 CPU ,後來經過重啓集羣中的全部 worker 節點服務器並從新部署應用解決的。網站

今天早上咱們也採起了重啓節點服務器的方法,重啓後服務器 CPU 恢復了正常。但在操做過程當中,閃存應用容器出現了問題,形成 15 分鐘左右閃存站點訪問不正常,由此給您帶來麻煩,請您諒解。阿里雲

最近,博客站點遭遇屢次 DDoS 攻擊,最高一次攻擊流量達到了近 80G 。一攻擊就會被阿里雲屏蔽30分鐘,雖然咱們採起了應急措施,但所有生效要10分鐘左右,因此每次受攻擊影響的用戶可能要10分鐘左右才能恢復正常訪問,由此給您帶來您諒解,請您諒解。spa

在這個多事之秋,網站出現了不少次故障,給你們帶來了很大的麻煩,懇請你們的諒解。blog

這個多事之秋,對咱們也是一種考驗,咱們會吸收教訓,進一步提高本身,在接下來更加努力地和你們共建更加朝氣蓬勃的園子。部署

相關文章
相關標籤/搜索