1.問題現象安全
Hadoop集羣HDFS、YARN、Hive等服務出現異常告警服務器
重啓集羣異常告警任然存在大量告警dom
Cluster 1oop
HDFS代理
可用空間抑制...日誌
NameNode 運行情況抑制...
HDFS 金絲雀抑制...
DataNode (ip-172-31-10-118) 日誌文件code
NameNode 鏈接抑制...blog
DataNode (ip-172-31-5-190) 日誌文件進程
NameNode 鏈接抑制...ip
DataNode (ip-172-31-9-33) 日誌文件
NameNode 鏈接抑制...
Hive Metastore Server (ip-172-31-6-148) 日誌文件
Hive Metastore Canary 抑制...
Impala Daemon (ip-172-31-10-118) 日誌文件
進程狀態抑制...
Impala Daemon (ip-172-31-5-190) 日誌文件
進程狀態抑制...
Impala Daemon (ip-172-31-9-33) 日誌文件
進程狀態抑制...
NameNode (ip-172-31-6-148) 日誌文件
安全模式狀態抑制...
Server (ip-172-31-5-190) 日誌文件
Quorum 成員資格抑制...
Zookeeper服務「Quorum 成員資格」告警
CM節點上的全部服務的角色日誌不能正常經過ClouderaManager控制檯查看,顯示以下錯誤:
2.問題復現
集羣環境:
1.還原現場配置,全部服務器hosts配置文件配置
127.0.0.1 ip-172-31-10-156.ap-southeast-1.compute.internal 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 ::1 localhost localhost.localdomain localhost6 localhost6.localdomain6 172.31.8.141 ip-172-31-8-141.ap-southeast-1.compute.internal 172.31.1.175 ip-172-31-1-175.ap-southeast-1.compute.internal 172.31.9.186 ip-172-31-9-186.ap-southeast-1.compute.internal 172.31.10.156 ip-172-31-10-156.ap-southeast-1.compute.internal
配置中的第一行配置爲多出的異常配置。
在主機上ping本身的hostname顯示
2.重啓集羣服務
CM出現以下大量告警
Cluster 1 HDFS 可用空間抑制... NameNode 運行情況抑制... HDFS 金絲雀抑制... DataNode (ip-172-31-10-118) 日誌文件 NameNode 鏈接抑制... DataNode (ip-172-31-5-190) 日誌文件 NameNode 鏈接抑制... DataNode (ip-172-31-9-33) 日誌文件 NameNode 鏈接抑制... Hive Metastore Server (ip-172-31-6-148) 日誌文件 Hive Metastore Canary 抑制... HiveServer2 (ip-172-31-6-148) 日誌文件 進程狀態抑制... Impala Daemon (ip-172-31-10-118) 日誌文件 進程狀態抑制... Impala Daemon (ip-172-31-5-190) 日誌文件 進程狀態抑制... Impala Daemon (ip-172-31-9-33) 日誌文件 進程狀態抑制... NameNode (ip-172-31-6-148) 日誌文件 安全模式狀態抑制... Server (ip-172-31-5-190) 日誌文件 Quorum 成員資格抑制... ip-172-31-10-118 代理狀態抑制... ip-172-31-5-190 代理狀態抑制... ip-172-31-9-33 代理狀態抑制...
Zookeeper與現場告警一致,且Zookeeper服務以下狀態
在查看CM節點的日誌出現以下異常「Connection refused」
Host列表監控狀態
3.問題緣由
集羣在運行正常的狀況下,全部節點的hosts文件被修改成127.0.0.1致使
4.解決方法
修改全部節點的hosts文件,將127.0.0.1行配置註釋
重啓集羣服務恢復正常;
醉酒鞭名馬,少年多浮誇! 嶺南浣溪沙,嘔吐酒肆下!摯友不願放,數據玩的花!
推薦關注Hadoop實操,第一時間,分享更多Hadoop乾貨,歡迎轉發和分享。