0023-HOSTS配置問題致使集羣異常故障分析

時間 2019-11-11

標籤 hosts 配置問題致使集羣異常故障分析欄目負載均衡简体版

原文原文鏈接

1.問題現象安全

Hadoop集羣HDFS、YARN、Hive等服務出現異常告警服務器

重啓集羣異常告警任然存在大量告警dom

Cluster 1oop

HDFS代理

可用空間抑制...日誌

NameNode 運行情況抑制...

HDFS 金絲雀抑制...

DataNode (ip-172-31-10-118) 日誌文件code

NameNode 鏈接抑制...blog

DataNode (ip-172-31-5-190) 日誌文件進程

NameNode 鏈接抑制...ip

DataNode (ip-172-31-9-33) 日誌文件

NameNode 鏈接抑制...

Hive Metastore Server (ip-172-31-6-148)  日誌文件

Hive Metastore Canary 抑制...

Impala Daemon (ip-172-31-10-118)  日誌文件

進程狀態抑制...

Impala Daemon (ip-172-31-5-190)  日誌文件

進程狀態抑制...

Impala Daemon (ip-172-31-9-33)  日誌文件

進程狀態抑制...

NameNode (ip-172-31-6-148) 日誌文件

安全模式狀態抑制...

Server (ip-172-31-5-190) 日誌文件

Quorum 成員資格抑制...

Zookeeper服務「Quorum 成員資格」告警

CM節點上的全部服務的角色日誌不能正常經過ClouderaManager控制檯查看，顯示以下錯誤：

2.問題復現

集羣環境：

CDH5.12.0
集羣服務（HDFS/Hive/YARN/Zookeeper/Hue/Impala/Kudu/Oozie）

1.還原現場配置，全部服務器hosts配置文件配置

127.0.0.1   ip-172-31-10-156.ap-southeast-1.compute.internal
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

172.31.8.141 ip-172-31-8-141.ap-southeast-1.compute.internal
172.31.1.175 ip-172-31-1-175.ap-southeast-1.compute.internal
172.31.9.186 ip-172-31-9-186.ap-southeast-1.compute.internal
172.31.10.156 ip-172-31-10-156.ap-southeast-1.compute.internal

配置中的第一行配置爲多出的異常配置。

在主機上ping本身的hostname顯示

2.重啓集羣服務

CM出現以下大量告警

Cluster 1

HDFS
可用空間抑制...
    NameNode 運行情況抑制...
    HDFS 金絲雀抑制...
DataNode (ip-172-31-10-118)  日誌文件
NameNode 鏈接抑制...
DataNode (ip-172-31-5-190)  日誌文件
NameNode 鏈接抑制...
DataNode (ip-172-31-9-33)  日誌文件
NameNode 鏈接抑制...
    Hive Metastore Server (ip-172-31-6-148)  日誌文件
Hive Metastore Canary 抑制...
HiveServer2 (ip-172-31-6-148)  日誌文件
進程狀態抑制...
    Impala Daemon (ip-172-31-10-118)  日誌文件
進程狀態抑制...
    Impala Daemon (ip-172-31-5-190)  日誌文件
進程狀態抑制...
    Impala Daemon (ip-172-31-9-33)  日誌文件
進程狀態抑制...
NameNode (ip-172-31-6-148)  日誌文件
安全模式狀態抑制...
Server (ip-172-31-5-190)  日誌文件
Quorum 成員資格抑制...
    ip-172-31-10-118
代理狀態抑制...
    ip-172-31-5-190
代理狀態抑制...
    ip-172-31-9-33
代理狀態抑制...

Zookeeper與現場告警一致，且Zookeeper服務以下狀態

在查看CM節點的日誌出現以下異常「Connection refused」

Host列表監控狀態

3.問題緣由

集羣在運行正常的狀況下，全部節點的hosts文件被修改成127.0.0.1致使

4.解決方法

修改全部節點的hosts文件，將127.0.0.1行配置註釋

重啓集羣服務恢復正常；

醉酒鞭名馬，少年多浮誇！嶺南浣溪沙，嘔吐酒肆下！摯友不願放，數據玩的花！

推薦關注Hadoop實操，第一時間，分享更多Hadoop乾貨，歡迎轉發和分享。