HiBench學習筆記

時間 2019-11-17

標籤 hibench 學習筆記简体版

原文原文鏈接

HiBench資源及教程：https://github.com/intel-hadoop/HiBench node

介紹：linux

Hadoop新人git

環境 linuxgithub

該筆記針對英語弱雞&本身在使用過程用遇到的問題的記錄。vim

步驟：bash

首先建立一個文件夾HiBench：mkdir HiBench網絡

cd HiBench框架

git clone https://github.com/intel-hadoop/HiBenchmaven

先介紹一下個人測試集羣的環境：oop

master
resourcemanager
datanode1
datanode2
datanode3

概述

HiBench是用來在速度方面評估不一樣的大數據框架的，它包括一系列的Hadoop，Spark，streaming工做負載，包括sort，wordcount，TeraSort, Sleep, SQL, PageRank, Nutch indexing, Bayes, Kmeans, NWeight and enhanced DFSIO,等。一樣也爲park Streaming, Flink, Storm and Gearpump提供工做負載。

Getting Started

Build HiBench
Run HadoopBench
Run SparkBench
Run StreamingBench (Spark streaming, Flink, Storm, Gearpump)

Build HiBench

運行mvn -Dscala=2.11 clean package 是Build All，即創建HiBench的全部模塊。

可能遇到的問題：

1.bash: mvn : command not found

緣由：你的系統上沒有安裝maven

解決方法：去官網下載

2.執行過程當中出現失敗

緣由：多是網絡的問題吧，我也不是很清楚

解決方法：重複執行該命令，最後出現build succeed 便可。

Run HadoopBench

1.確保：

Python 2.x(>=2.6) is required.
Supported Hadoop version: Apache Hadoop 2.x, CDH5.x, HDP
Build HiBench according to build HiBench.
Start HDFS, Yarn in the cluster.

2.建立並修改配置文件hadoop.conf

在HiBench的conf下：mkdir hadoop.conf

在HiBench下: cp conf/hadoop.conf.template conf/hadoop.conf

而後修改配置文件： vim hadoop.conf

按照下圖的規範：

注意：

1.hibench.hadoop.home是你本機上hadoop的安裝路徑

2.在配置hibench.hdfs.master的時候我傻傻地寫了hdfs://localhost:8020/user/username。。。致使後來運行腳本一直不成功。

首先localhost是你的機器的IP，也能夠在命令行輸入hostname，用hostname來代替localhost便可。

後面的端口號也不是8020，要根據本機的端口，在命令行輸入vi ~/local/hadoop-2.7.3/etc/hadoop/core-site.xml，能夠觀察到

hdfs://master:9000代替hdfs://localhost:8020，

username寫的是你把數據存在了usr下的那個文件裏

我配置完的狀況是：

接下來就是在HiBench下運行腳本

若是前面都沒有問題的話，是能正常執行的。
執行完成之後，你能夠在HiBench/report/hibench.report中查看 workload name, execution duration, data size, throughput per cluster, throughput per node等信息bin/workloads/micro/wordcount/prepare/prepare.sh bin/workloads/micro/wordcount/hadoop/run.sh


數據規模也是能夠設置的：修改conf/hibench.conf裏面的hibench.scale.profile項。未完待續。。。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。