大規模機器集羣-故障自動處理(二)

本篇開始介紹具體的實現過程,爲表述方便,先定義一些名詞, AutoRepairSystem: 故障自動維修系統, 縮寫爲ARS 原子操作:任務的最小操作,機器任務通常是指重啓、重裝 運維人員:運維工程師= SRE = OP,系統工程師 = sys 遠程管理工具: 遠程控制操作物理機器的工具,如ipmi、ilo   先來看ARS的整體視圖和流程圖,         ARS的工作流程, 故障檢測: 每
相關文章
相關標籤/搜索