阿里如何做到百萬量級硬件故障自愈?

隨着阿里大數據產品業務的增長,服務器數量不斷增多,IT運維壓力也成比例增大。各種軟、硬件故障而造成的業務中斷,成爲穩定性影響的重要因素之一。本文詳細解讀阿里如何實現硬件故障預測、服務器自動下線、服務自愈以及集羣的自平衡重建,真正在影響業務之前實現硬件故障自動閉環策略,對於常見的硬件故障無需人工干預即可自動閉環解決。 1.背景 1.1.面臨挑戰 對於承載阿里巴巴集團95%數據存儲及計算的離線計算平臺
相關文章
相關標籤/搜索