spark單機模式 和 集羣模式 安裝

1.spark單機模式安裝shell

實現步驟:瀏覽器

1)安裝和配置好JDK服務器

2)上傳和解壓Spark安裝包oop

3)進入Spark安裝目錄下的conf目錄spa

複製conf spark-env.sh.template 文件爲 spark-env.shblog

在其中修改,增長以下內容:進程

SPARK_LOCAL_IP=服務器IP地址ip

Spark單機模式啓動hadoop

在bin目錄下執行:sh spark-shell --master=localget

啓動後 發現打印消息

Spark context Web UI available at http://localhost:4040//Spark的瀏覽器界面

看到這個頁面單機模式也就安裝成功了

2.集羣模式安裝

實現步驟:

1)上傳解壓spark安裝包

2)進入spark安裝目錄的conf目錄

3)配置spark-env.sh文件

配置示例:

#本機ip地址

SPARK_LOCAL_IP=spark01

#spark的shuffle中間過程會產生一些臨時文件,此項指定的是其存放目錄,不配置默認是在 /tmp目錄下

SPARK_LOCAL_DIRS=/home/software/spark/tmp

export JAVA_HOME=/home/software/jdk1.8

4)在conf目錄下,編輯slaves文件

配置示例:

spark01

spark02

spark03

5)配置完後,將spark目錄發送至其餘節點,並更改對應的  SPARK_LOCAL_IP 配置

 

啓動集羣

1)若是你想讓 01 虛擬機變爲master節點,則進入01 的spark安裝目錄的sbin目錄

執行: sh start-all.sh

2)經過jps查看各機器進程,

01:Master +Worker

02:Worker

03:Worker

3)經過瀏覽器訪問管理界面

http://192.168.222.22:8080

4)經過spark shell 鏈接spark集羣

進入spark的bin目錄

執行:sh  spark-shell.sh --master spark://192.168.222.22:7077

 

6)在集羣中讀取文件:

sc.textFile("/root/work/words.txt")

默認讀取本機數據 這種方式須要在集羣的每臺機器上的對應位置上都一份該文件 浪費磁盤

7)因此應該經過hdfs存儲數據

sc.textFile("hdfs://hadoop01:9000/mydata/words.txt");

注:能夠在spark-env.sh 中配置選項 HADOOP_CONF_DIR 配置爲hadoop的etc/hadoop的地址 使默認訪問的是hdfs的路徑

注:若是修改默認地址是hdfs地址 則若是想要訪問文件系統中的文件 須要指明協議爲file 例如 sc.text("file:///xxx/xx")

相關文章
相關標籤/搜索