hadoop2.7.1環境搭建

時間 2019-11-17

原文原文鏈接

在老闆的支持下，陸續劃拉到了10幾臺機器，綁定了固定IP，工做之餘開始了Hadoop之旅。將要點記錄下來，以備查閱。java

硬件構成：node

Resourcemysql	Volumelinux
CPUsql	2 coresbootstrap
Memory性能優化	4 GB架構
Diskmaven	500 GBoop
Network	100 M

軟件構成：

Name	Version	Install Path
CentOS	6.7 x86_64	/
Oracle JDK	7u79-linux-x64	/usr/local/java/
Hadoop	2.7.1	/home/hadoop/
Flume	1.6.0	/home/flume/
Maven	3.3.9	/usr/local/maven/
Ant	1.9.6	/usr/local/ant
MySQL	5.6.21 Community Server	/home/mysql/
D3.js	v3

總體架構：

DFS和Yarn構成：

各個節點須要的配置：

調試hadoop節點用到的命令：

sbin/hadoop-daemon.sh start journal
bin/hdfs namenode format
sbin/hadoop-daemon.sh start namenode
bin/hdfs namenode -bootstrapStandby
sbin/hadoop-daemon.sh start namenode
bin/hdfs haadmin -transitionToActive nn1
sbin/hadoop-daemons.sh start datanode
sbin/yarn-daemon.sh start resourcemanager
sbin/yarn-daemon.sh start nodemanager

調試完畢後的集羣啓動/關閉命令：

sbin/start-dfs.sh
sbin/start-yarn.sh
bin/hdfs haadmin -transitionToActive nn1

sbin/stop-dfs.sh
sbin/stop-yarn.sh

DFS管理界面：

YARN管理界面：

正在把150G日誌手動導入DFS，暫時還沒用上Flume，後面逐步集成進來。

MR運行結果存入DFS或者灌入MySQL都試驗成功，回頭整理。

Yarn的資源隊列臨時配置了一個，如今只是能跑，還不明白咋回事，抽時間繼續研究。

在4個data node節點上（昨晚才湊到9節點）對15G日誌跑一個過濾useragent的MR，須要8分鐘，這樣算下來須要1天時間才能對1個月的日誌解析完，孰能忍！性能優化須要陸續展開。

配置文件的內容參考了hadoop官網，董西成博客，感謝董先生無私分享。