HiBench學習筆記

HiBench資源及教程:https://github.com/intel-hadoop/HiBench node

介紹:linux

Hadoop新人git

環境 linuxgithub

該筆記針對英語弱雞&本身在使用過程用遇到的問題的記錄。vim

 

步驟:bash

首先建立一個文件夾HiBench:mkdir HiBench網絡

cd HiBench框架

git clone https://github.com/intel-hadoop/HiBenchmaven

先介紹一下個人測試集羣的環境:oop

master 
resourcemanager 
datanode1
datanode2
datanode3
 

概述

HiBench是用來在速度方面評估不一樣的大數據框架的,它包括一系列的Hadoop,Spark,streaming工做負載,包括sort,wordcount,TeraSort, Sleep, SQL, PageRank, Nutch indexing, Bayes, Kmeans, NWeight and enhanced DFSIO,等。一樣也爲park Streaming, Flink, Storm and Gearpump提供工做負載。

Getting Started

  • Build HiBench
  • Run HadoopBench
  • Run SparkBench
  • Run StreamingBench (Spark streaming, Flink, Storm, Gearpump)

 

Build HiBench

運行mvn -Dscala=2.11 clean package 是Build All,即創建HiBench的全部模塊。

可能遇到的問題:

1.bash: mvn : command not found

緣由:你的系統上沒有安裝maven

解決方法:去官網下載

2.執行過程當中出現失敗

緣由:多是網絡的問題吧,我也不是很清楚

解決方法:重複執行該命令,最後出現build succeed 便可。

 

Run HadoopBench

1.確保:

  • Python 2.x(>=2.6) is required.

  • Supported Hadoop version: Apache Hadoop 2.x, CDH5.x, HDP

  • Build HiBench according to build HiBench.

  • Start HDFS, Yarn in the cluster.

2.建立並修改配置文件hadoop.conf

在HiBench的conf下:mkdir hadoop.conf

在HiBench下: cp conf/hadoop.conf.template conf/hadoop.conf

而後修改配置文件: vim hadoop.conf

按照下圖的規範:

注意:

1.hibench.hadoop.home是你本機上hadoop的安裝路徑

2.在配置hibench.hdfs.master的時候我傻傻地寫了hdfs://localhost:8020/user/username。。。致使後來運行腳本一直不成功。

首先localhost是你的機器的IP,也能夠在命令行輸入hostname,用hostname來代替localhost便可。

後面的端口號也不是8020,要根據本機的端口,在命令行輸入vi ~/local/hadoop-2.7.3/etc/hadoop/core-site.xml,能夠觀察到

hdfs://master:9000代替hdfs://localhost:8020,

username寫的是你把數據存在了usr下的那個文件裏

我配置完的狀況是:

 

接下來就是在HiBench下運行腳本

若是前面都沒有問題的話,是能正常執行的。
執行完成之後,你能夠在HiBench/report/hibench.report中查看 workload name, execution duration, data size, throughput per cluster, throughput per node等信息bin/workloads/micro/wordcount/prepare/prepare.sh bin/workloads/micro/wordcount/hadoop/run.sh


數據規模也是能夠設置的:修改conf/hibench.conf裏面的hibench.scale.profile項。未完待續。。。
相關文章
相關標籤/搜索