6個人如何維護上千規模的大數據集羣？

時間 2021-01-19

原文原文鏈接

本文主要介紹如何通過對計算引擎入口的統一，降低用戶接入門檻；如何讓用戶自助分析任務異常及失敗原因，以及如何從集羣產生的任務數據本身監控集羣計算/存儲資源消耗，監控集羣狀況，監控異常任務等。其中 6 人的離線團隊需要維護大數據集羣規模如下： Hadoop 集羣規模 1300+ HDFS 存量數據 40+PB，Read 3.5 PB+/天，Write 500TB+/天 14W MR Job/天，10

>>阅读原文<<