hadoop僞分佈式搭建

時間 2019-12-19

原文原文鏈接

hadoop 用戶能夠在不瞭解分佈式底層細節的狀況下，開發分佈式程序。充分利用集羣的威力進行高速運算和存儲。雲計算大數據到如今是愈來愈火，而hadoop成爲大數據不可或缺的分佈式大數據計算平臺。
Hadoop實現了一個分佈式文件系統（Hadoop Distributed File System），簡稱HDFS。HDFS有高容錯性的特色，而且設計用來部署在低廉的（low-cost）硬件上；並且它提供高吞吐量（high throughput）來訪問應用程序的數據，適合那些有着超大數據集（large data set）的應用程序。HDFS放寬了（relax）POSIX的要求，能夠以流的形式訪問（streaming access）文件系統中的數據。
今天就先教你們如何搭建僞分佈式系統。
首先咱們準備一臺雲服務器 內存 1G 操做系統 centos 7 IP地址是211.159.153.214:22
軟件有hadoop-2.7.1.tar.gz和jdk-7u67-linux-x64.tar.gz
下載地址
https://share.weiyun.com/51a2b349ba1587d69664ad50b7cded3cjava

首先咱們用XSell連接（固然你們也能夠用別的軟件來鏈接）

登陸後咱們就開始搭建咱們的hadoop僞分佈式系統node

修改主機名與IP地址的對應關係
[root@VM_11_203_centos ~]# hostname
查看主機名
[root@VM_11_203_centos ~]# vim /etc/hosts
修改文件爲一下內容

而後輸入reboot重啓機器
配置ssh免密碼登陸linux

[root@VM_11_203_centos ~]# ssh 211.159.153.214
The authenticity of host '211.159.153.214 (211.159.153.214)' can't be established.
ECDSA key fingerprint is 22:49:b2:5c:7c:8f:73:56:89:29:8a:bd:56:49:74:66.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added '211.159.153.214' (ECDSA) to the list of known hosts.
root@211.159.153.214's password:

這裏咱們要輸入密碼特別的不方便，因此要取消。vim

輸入ssh-keygen -t rsa而後四個回車centos

[root@VM_11_203_centos ~]# ssh-keygen -t rsa
Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa): 
Enter passphrase (empty for no passphrase): 
Enter same passphrase again: 
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
The key fingerprint is:
e4:7d:24:39:20:e1:27:07:3b:4c:8d:b0:3d:f6:4f:13 root@VM_11_203_centos
The key's randomart image is:
+--[ RSA 2048]----+
|    ..=+.        |
|     *.+.. .     |
|    . X + E .    |
|     . X . =     |
|        S + .    |
|         o o     |
|          .      |
|                 |
|                 |
+-----------------+

而後複製密鑰到本機瀏覽器

[root@VM_11_203_centos ~]# ssh-copy-id 211.159.153.214
/usr/bin/ssh-copy-id: INFO: attempting to log in with the new key(s), to filter out any that are already installed
/usr/bin/ssh-copy-id: INFO: 1 key(s) remain to be installed -- if you are prompted now it is to install the new keys
root@211.159.153.214's password:

[root@VM_11_203_centos ~]# ssh 211.159.153.214
Last login: Thu Mar 16 17:26:00 2017 from 218.21.34.74

由於hadoop是java寫的，因此在這裏要配置JAVA的環境變量，
先建立幾個目錄，用來存放後面的文件緩存

[root@VM_11_203_centos ~]# cd /home
[root@VM_11_203_centos home]# ls
[root@VM_11_203_centos home]# mkdir softwares
[root@VM_11_203_centos home]# mkdir tools
[root@VM_11_203_centos home]# mkdir datas
[root@VM_11_203_centos home]# cd tools/

看一下系統是否安裝了java服務器

[root@VM_11_203_centos tools]# rpm -qa|grep jdk
[root@VM_11_203_centos tools]# rpm -qa|grep java

輸入這兩句啥都沒有說明系統沒有安裝jdk,
開始安裝jdk，經過yum來安裝一個文件上傳插件。
[root@VM_11_203_centos tools]# yum install lrzsz –y
最後出現Complete!，說明安裝成功。
而後上傳JDK
[root@VM_11_203_centos tools]#rz

若是上傳過慢，也能夠用Xsell自帶的文件上傳功能上傳文件，將咱們的hadoop-2.7.1.tar.gz和jdk-7u67-linux-x64.tar.gz一塊兒上傳上去到咱們新建的tools目錄。

開始用tar命令解壓咱們的文件
[root@VM_11_203_centos tools]# tar -zxf jdk-7u67-linux-x64.tar.gz -C ../softwares/
解壓完畢後，開始配置環境變量
這裏不知道jdk的目錄層級，可使用pwd進行查看。
[root@VM_11_203_centos jdk1.7.0_67]# pwd
/home/softwares/jdk1.7.0_67
開始修改配置文件
[root@VM_11_203_centos jdk1.7.0_67]# vim /etc/profile
在profile文件後面追加dom

export JAVA_HOME=/home/softwares/jdk1.7.0_67
export PATH=$PATH:$JAVA_HOME/bin

使配置生效
[root@VM_11_203_centos jdk1.7.0_67]# source /etc/profilessh

測試環境變量，輸入
[root@VM_11_203_centos jdk1.7.0_67]# java –version
出現

java version "1.7.0_67"
Java(TM) SE Runtime Environment (build 1.7.0_67-b01)
Java HotSpot(TM) 64-Bit Server VM (build 24.65-b04, mixed mode)

說明咱們的配置生效了，環境變量沒有配錯。
而後開始安裝hadoop
解壓咱們一開始上傳的hadoop文件
[root@VM_11_203_centos tools]# tar -zxf hadoop-2.7.1.tar.gz -C ../softwares/
解壓完成後，進入咱們的hadoop目錄，來對其進行配置

[root@VM_11_203_centos tools]# cd ../softwares/hadoop-2.7.1/
[root@VM_11_203_centos hadoop-2.7.1]# cd etc/hadoop/

配置hadoop-env.sh ，主要是配置java的環境變量
[root@VM_11_203_centos hadoop-2.7.1]# vim hadoop-env.sh
修改export JAVA_HOME=${JAVA_HOME}爲export JAVA_HOME=/home/softwares/jdk1.7.0_67

開始配置core-site.xml
回到hadoop主目錄而後建立data目錄，來存放咱們hadoop的緩存目錄。
[root@VM_11_203_centos hadoop-2.7.1]# mkdir data [root@VM_11_203_centos hadoop-2.7.1]# cd data [root@VM_11_203_centos data]# mkdir tmp [root@VM_11_203_centos data]# cd tmp [root@VM_11_203_centos hadoop-2.7.1]# cd etc/hadoop/ [root@VM_11_203_centos hadoop]# vim core-site.xml

在configuration標籤下加入（一下文件配置都是在次標籤下加入的）

<name>fs.defaultFs</name>
<value>hdfs://211.159.153.214:8020</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/softwares/hadoop-2.7.1/data/tmp</value>
</property>

開始配置hdfs-site.xml（設置備份數，hadoop默認是三份，因爲咱們是僞分佈式，因此一份就夠了）

<name>dfs.replication</name>
<value>1</value>

而後開始格式化文件系統

[root@VM_11_203_centos hadoop-2.7.1]# bin/hdfs namenode –format
看到successfully formatted說明格式化成功

而後啓動咱們的進程
[root@VM_11_203_centos hadoop-2.7.1]# sbin/start-dfs.sh
遇到選項就輸入yes
查看進程

[root@VM_11_203_centos hadoop-2.7.1]# jps
14262 NameNode
14385 DataNode
14601 SecondaryNameNode
14724 Jps

出現上面的說明啓動成功
若啓動報錯改變以下配置
[root@VM_11_203_centos hadoop-2.7.1]# vim etc/hadoop/core-site.xml
在core-site.xml加入

<name>fs.default.name</name>
<value>hdfs://127.0.0.1:9000</value>
</property>

而後從新啓動就發現啓動成功了。
在瀏覽器輸入http://211.159.153.214:50070/

說明打開成功了。
安裝yarn，hadoop中的資源調度。
而後修改hadoop目錄下的mapred-site.xml.template（主要是讓咋們的mapreduce服從yarn的調度）

[root@VM_11_203_centos hadoop-2.7.1]# mv etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
[root@VM_11_203_centos hadoop-2.7.1]# vim etc/hadoop/mapred-site.xml

加入一下配置

<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

配置yarn-site.xml（配置mapreduce去數據的方式）

[root@VM_11_203_centos hadoop-2.7.1]# vim etc/hadoop/mapred-site.xml 
[root@VM_11_203_centos hadoop-2.7.1]# vim etc/hadoop/yarn-site.xml

增長以下配置

<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
<!-- Site specific YARN configuration properties -->
</property>

啓動
[root@VM_11_203_centos hadoop-2.7.1]# sbin/start-yarn.sh
jps看一下

14262 NameNode
15976 NodeManager
14385 DataNode
15884 ResourceManager
14601 SecondaryNameNode
16120 Jps

五個進程都啓動成功，說明咋們的配置正確，啓動中有什麼錯誤請查看日誌文件。
在瀏覽器輸入
http://211.159.153.214:8088/

說明咱們整個hadoop配置成功。

開始測試（用hadoop作一下詞頻統計）
進入 data目錄下

[root@VM_11_203_centos hadoop-2.7.1]# cd /home/data 
[root@VM_11_203_centos data]# touch words
[root@VM_11_203_centos data]# vim words

Hello a
Hello b
統計單詞出現的個數。
開始上傳文件

[root@VM_11_203_centos data]# cd /home/softwares/hadoop-2.7.1/
開始上傳文件
[root@VM_11_203_centos hadoop-2.7.1]# bin/hadoop fs -put /home/data/words /words
上傳成功後輸入命令開始統計
[root@VM_11_203_centos hadoop-2.7.1]#bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /words /out

而後查看結果

[root@VM_11_203_centos hadoop-2.7.1]# bin/hadoop fs -ls /
Found 3 items
drwxr-xr-x - root supergroup 0 2017-3-16 21:05 /out
drwx------ - root supergroup 0 2017-3-16 21:02 /tmp
-rw-r--r-- 1 root supergroup 16 2017-3-16 20:51 /words
[root@VM_11_203_centos hadoop-2.7.1]# bin/hadoop fs -ls /out
Found 2 items
-rw-r--r-- 1 root supergroup 0 2017-3-16 21:05 /out/_SUCCESS
-rw-r--r-- 1 root supergroup 16 2017-3-16 21:04 /out/part-r-00000

開始查看結果

root@VM_11_203_centos hadoop-2.7.1]# bin/hadoop fs -cat /out/part-r-00000

結果以下
Hello 2
a 1
b 1
查詢完成；
工做過程
hdfs原始數據：
hello a
hello b

map階段：
輸入數據：
<0,"hello a">
<8,"hello b">

輸出數據：

map(key,value,context) {
String line = value;    //hello a
String[] words = value.split("\t");
for(String word : words) {
//hello
// a
// hello 
// b
context.write(word,1);
}
}

< hello,1>
< a,1>
< hello,1>
< b,1>

reduce階段（分組排序）：
輸入數據：
< a,1>
< b,1>
< hello,{1,1}>

輸出數據：

reduce(key,value,context) {
int sum = 0;
String word = key;
for(int i : value) {
sum += i;
}
context.write(word,sum);
}

本文轉載自騰雲閣，已得到做者受權。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。