spark集羣

時間 2019-11-17

標籤 spark 集羣欄目 Spark 简体版

原文原文鏈接

安裝包：http://d3kbcqa49mib13.cloudfront.net/spark-2.1.0-bin-hadoop2.7.tgz
http://www.scala-lang.org/download/2.12.2.html

環境基於Hadoop的，前面已搭建完成html

設置spark環境變量
export SCALA_HOME=/usr/local/scala
export SPARK_HOME=/usr/local/spark-2.1.0/
export PATH=$PATH:$SPARK_HOME/bin:$SCALA_HOME/binjava

修改配置文件
cd /usr/local/spark-2.1.0/conf
cp spark-defaults.conf.template spark-defaults.conf
vim spark-defaults.confweb

#eventLog是否生效（建議開啓，能夠對已完成的任務記錄其詳細日誌）
spark.eventLog.enabled true
#eventLog是否啓用壓縮（cpu性能好的狀況下建議開啓，以減小內存等的佔用）
spark.eventLog.compress true
#eventLog的文件存放位置，與spark-env.sh中的history server配置位置一致,這兩個位置必須手動建立 hadoop fs -mkdir -p /tmp/spark/applicationHistory,不然spark啓動失敗
spark.eventLog.dir hdfs://10.68.4.49:9000/tmp/spark/applicationHistory
#廣播塊大小
spark.broadcast.blockSize 8m
#Executor的cpu核數
spark.executor.cores 1
#Executor的內存大小
spark.executor.memory 512m
#Executor心跳交換時間間隔
spark.executor.heartbeatInterval 20sshell

#文件抓取的timeout
spark.files.fetchTimeout 120s
#做業最大失敗次數（達到這次數後，該做業再也不繼續執行，運行失敗）
spark.task.maxFailures 6
#設置序列化機制（默認使用java的序列化，可是速度很慢，建議使用Kryo）
spark.serializer org.apache.spark.serializer.KryoSerializer
#序列化緩衝大小
spark.kryoserializer.buffer.max 256m
#Akka調度幀大小
#spark.akka.frameSize 128
spark.rpc.message.maxSize 128
#默認並行數
spark.default.parallelism 20
#最大網絡延時
#spark.network.timeout 300s #最大網絡延時
spark.speculation true #Spark推測機制（建議開啓）apache

vim spark-env.sh
SPARK_LOCAL_IP=10.68.4.49
#本機ip或hostname
SPARK_LOCAL_DIRS=/data/spark/local
#配置spark的local目錄
SPARK_MASTER_IP=10.68.4.49
#master節點ip或hostname
SPARK_MASTER_WEBUI_PORT=8080
#web頁面端口vim

export SPARK_MASTER_OPTS="-Dspark.deploy.defaultCores=4"
#spark-shell啓動使用核數
SPARK_WORKER_CORES=4
#Worker的cpu核數
SPARK_WORKER_MEMORY=4g
#worker內存大小
SPARK_WORKER_DIR=/data/spark/work
#worker目錄
export SPARK_WORKER_OPTS="-Dspark.worker.cleanup.enabled=true -Dspark.worker.cleanup.appDataTtl=604800"
#worker自動清理及清理時間間隔
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 - Dspark.history.fs.logDirectory=hdfs://10.68.4.49:9000/tmp/spark/applicationHistory"
#history server頁面端口、備份數、log日誌在HDFS的位置
SPARK_LOG_DIR=/data/log/spark
#配置Spark的log日誌目錄服務器

export JAVA_HOME=/data/java/jdk #配置java路徑
export SCALA_HOME=/usr/local/scala #配置scala路徑網絡

export SPARK_MASTER_HOST=10.68.4.49
export SPARK_WORKER_MEMORY=10240mapp

export HADOOP_HOME=/usr/local/hadoop/lib/native #配置hadoop的lib路徑
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop/ #配置hadoop的配置路徑oop

複製到其它從服務器
scp -r /usr/local/spark-2.1.0 slave:/usr/local
修改spark-env.sh文件中的SPARK_LOCAL_IP地址爲本身的ip地址

cd /usr/local/spark-2.1.0/sbin ./start-all.sh jps 查看主顯示master 從顯示worker