HiBench資源及教程:https://github.com/intel-hadoop/HiBench node
介紹:linux
Hadoop新人git
環境 linuxgithub
該筆記針對英語弱雞&本身在使用過程用遇到的問題的記錄。vim
步驟:bash
首先建立一個文件夾HiBench:mkdir HiBench網絡
cd HiBench框架
git clone https://github.com/intel-hadoop/HiBenchmaven
先介紹一下個人測試集羣的環境:oop
概述
HiBench是用來在速度方面評估不一樣的大數據框架的,它包括一系列的Hadoop,Spark,streaming工做負載,包括sort,wordcount,TeraSort, Sleep, SQL, PageRank, Nutch indexing, Bayes, Kmeans, NWeight and enhanced DFSIO,等。一樣也爲park Streaming, Flink, Storm and Gearpump提供工做負載。
Build HiBench
運行mvn -Dscala=2.11 clean package 是Build All,即創建HiBench的全部模塊。
可能遇到的問題:
1.bash: mvn : command not found
緣由:你的系統上沒有安裝maven
解決方法:去官網下載
2.執行過程當中出現失敗
緣由:多是網絡的問題吧,我也不是很清楚
解決方法:重複執行該命令,最後出現build succeed 便可。
Run HadoopBench
1.確保:
Python 2.x(>=2.6) is required.
Supported Hadoop version: Apache Hadoop 2.x, CDH5.x, HDP
Build HiBench according to build HiBench.
Start HDFS, Yarn in the cluster.
2.建立並修改配置文件hadoop.conf
在HiBench的conf下:mkdir hadoop.conf
在HiBench下: cp conf/hadoop.conf.template conf/hadoop.conf
而後修改配置文件: vim hadoop.conf
按照下圖的規範:
注意:
1.hibench.hadoop.home是你本機上hadoop的安裝路徑
2.在配置hibench.hdfs.master的時候我傻傻地寫了hdfs://localhost:8020/user/username。。。致使後來運行腳本一直不成功。
首先localhost是你的機器的IP,也能夠在命令行輸入hostname,用hostname來代替localhost便可。
後面的端口號也不是8020,要根據本機的端口,在命令行輸入vi ~/local/hadoop-2.7.3/etc/hadoop/core-site.xml,能夠觀察到
hdfs://master:9000代替hdfs://localhost:8020,
username寫的是你把數據存在了usr下的那個文件裏
我配置完的狀況是:
接下來就是在HiBench下運行腳本
若是前面都沒有問題的話,是能正常執行的。
執行完成之後,你能夠在HiBench/report/hibench.report中查看 workload name, execution duration, data size, throughput per cluster, throughput per node等信息bin/workloads/micro/wordcount/prepare/prepare.sh bin/workloads/micro/wordcount/hadoop/run.sh
數據規模也是能夠設置的:修改conf/hibench.conf裏面的hibench.scale.profile項。未完待續。。。