hadoop2.7+Spark1.4環境搭建

時間 2019-11-09

標籤 hadoop2.7+spark1.4 hadoop spark 環境搭建欄目 Hadoop 简体版

原文原文鏈接

1、hadoop僞分佈式搭建

其實官網有比較詳實的說明，英語好的能夠直接看官網，地址
html

一、安裝JDK1.7

這個省略，官網顯示1.6能夠，可是我用openjdk1.6出了異常，JDK1.6沒試，直接用了JDK1.7
java

配置好環境變量node

vi /etc/profile

export JAVA_HOME=/usr/local/jdk1.7.0_79
export CLASSPATH=.:$JAVE_HOME/lib.tools.jar
export PATH=$PATH:$JAVA_HOME/bin

添加完後執行命令使配置生效python

source /etc/profile

二、安裝ssh、rsync,（以ubuntu爲例）

  $ sudo apt-get install ssh
  $ sudo apt-get install rsync

三、下載hadoop編譯包，鏡像地址（國內鏡像居然比US的還慢，不能忍，注意2.7的編譯包爲64位）

查是32仍是64位的辦法shell

cd hadoop-2.7.0/lib/native
file libhadoop.so.1.0.0

hadoop-2.7.0/lib/native/libhadoop.so.1.0.0: ELF 64-bit LSB shared object, AMD x86-64, version 1 (SYSV), not stripped

四、配置環境變量

hadoop配置文件指定java路徑
apache

etc/hadoop/hadoop-env.shubuntu

export JAVA_HOME=/usr/local/jdk1.7.0_79

系統環境變量瀏覽器

export HADOOP_HOME=/usr/local/hadoop-2.7.0
export PATH=$PATH:$HADOOP_HOME/bin
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

後兩條不加會出現ssh

You have loaded library /usr/hadoop/hadoop-2.7.0/lib/native/libhadoop.so.1.0.0 which might have disabled stack guard. The VM will try to fix the stack guard now.分佈式

It's highly recommended that you fix the library with 'execstack -c <libfile>', or link it with '-z noexecstack'.

添加完後執行命令使配置生效

source /etc/profile

執行命令查看是否成功

hadoop version

五、修改hadoop配置文件

etc/hadoop/core-site.xml:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

etc/hadoop/hdfs-site.xml:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

六、設置hadoop ssh無密碼訪問

  $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
  $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
  $ export HADOOP\_PREFIX=/usr/local/hadoop-2.7.0

七、格式化節點和啓動hadoop

$ bin/hdfs namenode -format
$ sbin/start-dfs.sh

打開瀏覽器 http://localhost:50070/看是否成功

hdfs配置：username最好和當前用戶名相同，否則會可能出現權限問題

  $ bin/hdfs dfs -mkdir /user
  $ bin/hdfs dfs -mkdir /user/<username>

八、yarn配置

etc/hadoop/mapred-site.xml:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

etc/hadoop/yarn-site.xml:

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

啓動yarn

$ sbin/start-yarn.sh

http://localhost:8088/查看是否成功

至此hadoop單節點僞分佈式安裝配置完成

2、spark安裝配置

spark的安裝相對就要簡單多了

一、首先下載，地址

由於我以前已經有hadoop了因此選擇第二個下載

二、下載解壓後進入目錄

cd conf
cp spark-env.sh.template spark-env.sh
cp spark-defaults.conf.template spark-defaults.conf
vi conf/spark-env.sh

最後添加

export HADOOP_HOME=/usr/local/hadoop-2.7.0

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export SPARK_DIST_CLASSPATH=$(hadoop classpath)

最後一個須要hadoop添加了環境變量才行。

官網配置中沒有前兩個配置，我運行例子時總報錯，找不到hdfs jar 包。

三、回到解壓目錄運行示例

./bin/run-example SparkPi 10

成功則到此配置完成

想運行python或者scala請參考官網

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。