spark單機模式和集羣模式安裝

時間 2019-11-06

標籤 spark 單機模式集羣安裝欄目 Spark 简体版

原文原文鏈接

1.spark單機模式安裝shell

實現步驟：瀏覽器

1）安裝和配置好JDK服務器

2）上傳和解壓Spark安裝包oop

3）進入Spark安裝目錄下的conf目錄spa

複製conf spark-env.sh.template 文件爲 spark-env.shblog

在其中修改，增長以下內容：進程

SPARK_LOCAL_IP=服務器IP地址ip

Spark單機模式啓動hadoop

在bin目錄下執行：sh spark-shell --master=localget

啓動後發現打印消息

Spark context Web UI available at http://localhost:4040//Spark的瀏覽器界面

看到這個頁面單機模式也就安裝成功了

2.集羣模式安裝

實現步驟：

1）上傳解壓spark安裝包

3）配置spark-env.sh文件

配置示例：

#本機ip地址

SPARK_LOCAL_IP=spark01

#spark的shuffle中間過程會產生一些臨時文件，此項指定的是其存放目錄，不配置默認是在 /tmp目錄下

SPARK_LOCAL_DIRS=/home/software/spark/tmp

export JAVA_HOME=/home/software/jdk1.8

4）在conf目錄下，編輯slaves文件

配置示例：

spark01

spark02

spark03

5）配置完後，將spark目錄發送至其餘節點，並更改對應的 SPARK_LOCAL_IP 配置

啓動集羣

1）若是你想讓 01 虛擬機變爲master節點，則進入01 的spark安裝目錄的sbin目錄

執行： sh start-all.sh

2）經過jps查看各機器進程，

01：Master +Worker

02：Worker

03：Worker

3）經過瀏覽器訪問管理界面

http://192.168.222.22:8080

4）經過spark shell 鏈接spark集羣

進入spark的bin目錄

執行：sh spark-shell.sh --master spark://192.168.222.22:7077

6）在集羣中讀取文件：

sc.textFile("/root/work/words.txt")

默認讀取本機數據這種方式須要在集羣的每臺機器上的對應位置上都一份該文件浪費磁盤

7）因此應該經過hdfs存儲數據

sc.textFile("hdfs://hadoop01:9000/mydata/words.txt");

注：能夠在spark-env.sh 中配置選項 HADOOP_CONF_DIR 配置爲hadoop的etc/hadoop的地址使默認訪問的是hdfs的路徑

注：若是修改默認地址是hdfs地址則若是想要訪問文件系統中的文件須要指明協議爲file 例如 sc.text("file:///xxx/xx")

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

spark單機模式 和 集羣模式 安裝

spark單機模式和集羣模式安裝