分佈式集羣監控方案

1、調研背景 XGboost on Yarn已正式接入流量,目前須要對XGboost集羣進行有效監控。html 爲了保證系統的穩定性,可靠性,可運維性。 掌控集羣的核心性能指標,瞭解集羣的性能表現; 集羣出現問題時及時報警,便於同窗及時修復問題; 集羣重要指標值異常時進行預警,將問題扼殺在搖籃中,不用等集羣真正不可用時才採起行動; 當集羣出現問題時,監控系統能夠幫助咱們更快的定位問題和解決問題。l
相關文章
相關標籤/搜索