智能運維 | 有了故障自愈機器人,運維小哥終於可以安心睡了

在大型互聯網公司中,單機房故障因爲其故障時間長、影響範圍大,一直是互聯網公司運維人員的心頭之痛。在傳統的運維方式中,由於故障感知判斷、流量調度決策的複雜性,通常需要人工止損,但人工處理的時效性會影響服務的恢復速度,同時人的不可靠性也可能導致問題擴大。 爲了解決這類問題,我們針對百度內外部網絡環境建設了基於智能流量調度的單機房故障自愈能力。結合外網運營商鏈路監測、內網鏈路質量監測與業務指標監控構建了
相關文章
相關標籤/搜索