分佈式平臺搭建

時間 2019-11-20

標籤分佈式平臺搭建欄目系統架構简体版

原文原文鏈接

分佈式平臺搭建

acmore
2018.6.17

1. 搭建Hadoop

如下操做皆基於Ubuntu 16.04 32位環境 & Hadoop 2.7.3版本html

1.1 單節點環境

首先安裝相關的準備環境

$ sudo apt update
$ sudo apt install -y default-jdk
$ sudo apt install -y vim
$ sudo apt install -y openssh-server

配置JAVA_HOME
- 通常來講Ubuntu平臺上經過default-jdk安裝的java位置在/usr/lib/jvm/default-jdk目錄
- 在/etc/profile中添加下邊兩行內容並保存退出
```
export JAVA_HOME=/usr/lib/jvm/default-java
export PATH=$PATH:$JAVA_HOME/bin
```
添加用戶和用戶組

$ sudo addgroup hadoop
$ sudo adduser --ingroup hadoop hduser
$ sudo usermod -a -G sudo hduser

配置ssh
- 切換到hduser，並執行如下操做
```
$ ssh-keygen -t rsa -P ""
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
```
- 以後嘗試使用下邊的命令鏈接本機，這個操做也會將本機加入到known hosts裏
```
$ ssh localhost
```

安裝Hadoop

下載hadoop-2.7.3.tar.gz，如下假定工做目錄爲/home/hduser

$ tar -zxvf hadoop-2.7.3.tar.gz
$ mv hadoop-2.7.3/ hadoop/
$ sudo chown -R hduser:hadoop hadoop

編輯bash配置

打開.bashrc，加入如下內容（也能夠修改/etc/profile，可是使用.bashrc更加靈活）

export JAVA_HOME=/usr/lib/jvm/default-java
export HADOOP_HOME=/home/hduser/hadoop
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin

配置Hadoop（不一樣版本的hadoop的配置方案會有不一樣，配置以前記得要肯定版本）

修改~/hadoop/etc/hadoop/hadoop-env.sh，在文件中添加下邊的內容

export JAVA_HOME=/usr/lib/jvm/default-java

修改~/hadoop/etc/hadoop/yarn-env.sh，在文件中添加下邊的內容

export JAVA_HOME=/usr/lib/jvm/default-java

修改~/hadoop/etc/hadoop/core-site.xml

執行如下命令

$ sudo mkdir -p /home/hduser/tmp
$ sudo chown hduser:hadoop /home/hduser/tmp
$ sudo chmod 750 /home/hduser/tmp

在core-site.xml添加如下內容（各個屬性的內容能夠按照實際狀況修改）

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
    <property>
        <name>io.file.buffer.size</name>
        <value>131072</value>
    </property>
   <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/home/hduser/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>hadoop.proxyuser.hduser.hosts</name>
       <value>*</value>
    </property>
    <property>
        <name>hadoop.proxyuser.hduser.groups</name>
        <value>*</value>
    </property>
</configuration>

修改~/hadoop/etc/hadoop/hdfs-site.xml，添加如下內容（各個屬性的內容能夠按照實際狀況修改）

執行如下命令

$ sudo mkdir -p /home/hduser/dfs/name
$ sudo chown hduser:hadoop /home/hduser/dfs/name
$ sudo chmod 750 /home/hduser/dfs/name
$ sudo mkdir -p /home/hduser/dfs/data
$ sudo chown hduser:hadoop /home/hduser/dfs/data
$ sudo chmod 750 /home/hduser/dfs/data

在hdfs-site.xml中添加如下內容

<configuration>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>master:9001</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/home/hduser/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/home/hduser/dfs/data</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
</configuration>

修改~/hadoop/etc/hadoop/mapred-site.xml，添加如下內容（各個屬性的內容能夠按照實際狀況修改）

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>master:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>master:19888</value>
    </property>
</configuration>

修改~/hadoop/etc/hadoop/yarn-site.xml（各個屬性的內容能夠按照實際狀況修改）

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value> master:8032</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value> master:8030</value>
    </property>
    <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value> master:8031</value>
    </property>
    <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value> master:8033</value>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value> master:8088</value>
    </property>
</configuration>

格式化Namenode
- 進入~/hadoop/bin目錄下，執行如下操做
```
$ ./hdfs namenode –format
```
啓動hadoop
- 在~/hadoop/sbin執行如下命令
```
$ ./start-dfs.sh
$ ./start-yarn.sh
```
- 以後經過jps命令能夠看到如下結果，說明啓動成功
```
13058   Jps
13026   NodeManager
12916   ResourceManager
12169   DataNode
```

1.2 集羣環境

此處默認master和slave已經按照單機節點配置完成java

設置網絡
- 個人例子是一臺master一臺slave，分別肯定二者的ip，而後在兩臺機器的/etc/hosts中寫入如下內容
```
192.168.0.1    master
192.168.0.2    slave
```
配置ssh免密登陸
- 在master上執行如下命令
```
$ ssh-copy-id -i ~/.ssh/id_rsa.pub hduser@slave
```
- 在slave上執行如下命令
```
$ ssh-copy-id -i ~/.ssh/id_rsa.pub hduser@master
```
- 以後兩方互相登陸測試一下是否能夠免密登陸
配置~/hadoop/etc/hadoop/slaves
- 在master機器的slaves文件中添加如下內容
```
master
slave
```
格式化Namenode
- 進入master的~/hadoop/bin目錄下，執行如下操做
```
$ ./hdfs namenode –format
```

啓動hadoop

在master的~/hadoop/sbin執行如下命令

$ ./start-dfs.sh
$ ./start-yarn.sh

以後經過jps命令能夠看到如下結果，說明啓動成功

master中

4048    Jps
3899    ResourceManager
4013    NodeManager
3726    SecondaryNameNode
3423    NameNode
3535    DataNode

slave中

2754    DataNode
3012    Jps
2903    NodeManager

2. 搭建Spark

2.1 Spark平臺

下載Spark
- 在這裏下載和hadoop版本對應的spark，假定工做目錄爲/home/hduser
- 進行以下操做解壓壓縮包（每一個節點都要進行）
```
$ tar -zxvf spark-2.3.1-bin-hadoop2.7.tgz
```
配置~/.bashrc文件
- 在.bashrc文件中添加如下內容（每一個節點都要添加）
```
export SPARK_HOME=/home/hduser/spark
export PATH=$PATH:$SPARK_HOME/bin
```
配置~/spark/conf/slaves文件
- 在兩個節點的salves文件中添加如下內容
```
master
slave
```
啓動Spark
- 在master的~/spark/sbin中執行如下命令
```
./start-all.sh
```
- 在master中執行jps，發現如下結果說明spark運行成功
```
5257    Worker
5177    Master
3726    SecondaryNameNode
5326    Jps
3432    NameNode
3535    DataNode
```
- 在slave中執行jsp，發現一下結果說明spark運行成功
```
2754    DataNode
3717    Worker
3771    Jps
```

2.2. 配置Scala

下載Scala
- 在這裏相應版本的scala壓縮包，假定工做目錄爲/home/hduser
- 進行以下操做解壓壓縮包（只須要在master進行）
```
$ tar -zxvf scala-2.12.6.tgz
```
配置~/.bashrc文件
- 在.bashrc文件中添加如下內容（只須要在master在master上執行如下命令）
```
export SCALA_HOME=/home/hduser/scala
export PATH=$PATH:$SCALA_HOME/bin
```