在老闆的支持下,陸續劃拉到了10幾臺機器,綁定了固定IP,工做之餘開始了Hadoop之旅。將要點記錄下來,以備查閱。java
硬件構成:node
Resourcemysql |
Volumelinux |
CPUsql |
2 coresbootstrap |
Memory性能優化 |
4 GB架構 |
Diskmaven |
500 GBoop |
Network |
100 M |
軟件構成:
Name |
Version |
Install Path |
CentOS |
6.7 x86_64 |
/ |
Oracle JDK |
7u79-linux-x64 |
/usr/local/java/ |
Hadoop |
2.7.1 |
/home/hadoop/ |
Flume |
1.6.0 |
/home/flume/ |
Maven |
3.3.9 |
/usr/local/maven/ |
Ant |
1.9.6 |
/usr/local/ant |
MySQL |
5.6.21 Community Server |
/home/mysql/ |
D3.js |
v3 |
總體架構:
DFS和Yarn構成:
各個節點須要的配置:
調試hadoop節點用到的命令:
sbin/hadoop-daemon.sh start journal
bin/hdfs namenode format
sbin/hadoop-daemon.sh start namenode
bin/hdfs namenode -bootstrapStandby
sbin/hadoop-daemon.sh start namenode
bin/hdfs haadmin -transitionToActive nn1
sbin/hadoop-daemons.sh start datanode
sbin/yarn-daemon.sh start resourcemanager
sbin/yarn-daemon.sh start nodemanager
調試完畢後的集羣啓動/關閉命令:
sbin/start-dfs.sh
sbin/start-yarn.sh
bin/hdfs haadmin -transitionToActive nn1
sbin/stop-dfs.sh
sbin/stop-yarn.sh
DFS管理界面:
YARN管理界面:
正在把150G日誌手動導入DFS,暫時還沒用上Flume,後面逐步集成進來。
MR運行結果存入DFS或者灌入MySQL都試驗成功,回頭整理。
Yarn的資源隊列臨時配置了一個,如今只是能跑,還不明白咋回事,抽時間繼續研究。
在4個data node節點上(昨晚才湊到9節點)對15G日誌跑一個過濾useragent的MR,須要8分鐘,這樣算下來須要1天時間才能對1個月的日誌解析完,孰能忍!性能優化須要陸續展開。
配置文件的內容參考了hadoop官網,董西成博客,感謝董先生無私分享。