Spark集羣部署

時間 2019-11-17

標籤 spark 集羣部署欄目 Spark 简体版

原文原文鏈接

Spark集羣部署 apache

本次博文轉發了超圖研究所的技術博文，但願對各位Spark技術研究者有用。 vim

第一步：安裝軟件
        Spark 1.5.4:wget http://www.apache.org/dyn/closer.lua/spark/spark-1.5.2/spark-1.5.2-bin-hadoop2.6.tgz
        Hadoop 2.6.3:wget http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.6.3/hadoop-2.6.3.tar.gz
        scala :apt-get install scala
第二步：配置環境變量
        執行/etc/profile
        export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_80
        export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/BIN:${SCALA_HOME}/bin:${SPARK_HOME}/bin:/home/supermap/program/hadoop-2.6.3/bin:$PATH
        export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
        export SCALA_HOME=/usr/lib/scala/scala-2.11.7
        export PATH=${SCALA_HOME}/bin:$PATH
        export SPARK_HOME=/program/spark-1.5.2-bin-hadoop2.6
        source /etc/profile
第三步：建立鏡像
        經過OpenStack管理器根據配置好的虛擬機建立鏡像，生成的鏡像配置以下：
        鏡像概況信息

        ________________________________________
        名稱        spark-hadoop
        ID            61055db5-598b-4f1a-98fa-d2cbbf305d0c
        狀態        Active
        公有        False
        受保護的        False
        校驗和        47acf7993101713aee17764802602941
        ________________________________________
        配置              4.4 GB
        容器格式        BARE
        磁盤格式        QCOW2
        最小磁盤        60.0GB

第四步：建立虛擬機
        基於建立的鏡像，生成2臺虛擬機，加上最開始用於建立鏡像的1臺，一共3臺虛擬主機，名稱分別爲：
        spark_hadoop_master
        spark_hadoop_slave1
        spark_hadoop_slave2
        下面就能夠開始作與建立Spark集羣相關的操做了。
第五步：設置主機名
        1.在/etc/hostname中就改主機名，分別設置三臺主機爲master、slave一、slave2，並重啓
           ssh

        2.重啓以後，分別設置三個節點etc/hosts，指定ip和主機名的對應關係。

        經過測試root @master :~# ssh slave1，在輸入root用戶密碼後能夠登陸。
第六步：修改ssh無密碼訪問
        首先開啓root用戶訪問權限
        1. 修改/etc/ssh/sshd-config文件，設置以下：
        2. PermitRootLogin yes
        3. PubkeyAuthentication yes
        4. PasswordAuthentication yes
        從新啓動ssh服務：service ssh restart
        再進行以下測試，能夠免輸入密碼登陸了。

第七步：配置Spark集羣
        進入Spark的conf目錄：
          jvm

把spark-env.sh.template拷貝爲spark-env.sh
把slaves.template拷貝爲slaves oop

vim打開spark-env.sh修改其中的內容，加入如下設置測試

        export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_80
        export SPARK_MASTER_IP=192.168.12.154
        export SPARK_WORKER_MEMORY=4g
        export SCALA_HOME=/usr/lib/scala/scala-2.11.7
        export HADOOP_CONF_DIR=/home/supermap/program/hadoop-2.6.3/conf lua

        SPARK_WORKER_MEMORY：制定的Worker節點可以最大分配給Excutors的內存大小，因爲配置的虛擬機是4g內存，爲了最大限度使用內存，這裏設置4G。
        接下來配置slaves文件，把Workers節點都添加進去：

        這種配置把master也做爲一個Worker節點。 spa

以上配置在master和slave1，slave2節點都作相同處理。 .net

第八步：啓動集羣
        這裏測試沒有啓動Hadoop集羣，只須要Spark集羣進行啓動便可，在Spark目錄下，運行sbin/start-all.sh便可啓動集羣服務。

        最後經過訪問spark管理頁面查看服務狀態
          scala

轉載自：http://blog.csdn.net/chinagissoft/article/details/50559774