運維往事 一次負載均衡壞點檢測事故

之前做運維,有一些印象很深的事故,今天來講其中一個,爲了大家能理解,先說一些背景。現在因爲流量巨大,單臺機器肯定不足以爲所有用戶提供服務,所以大公司幾乎任何一個服務的背後都是一套集羣,然而任意一臺機器不是100%可靠,如果你想讓你服務儘可能接近100%可靠,你的集羣就得具備檢測和剔除壞點的能力。   之前在阿里廣泛使用的是LVS負載均衡,LVS集羣就支持壞點檢測和剔除,用戶訪問大概架構如下。   
相關文章
相關標籤/搜索