1.spark單機模式安裝shell
實現步驟:瀏覽器
1)安裝和配置好JDK服務器
2)上傳和解壓Spark安裝包oop
3)進入Spark安裝目錄下的conf目錄spa
複製conf spark-env.sh.template 文件爲 spark-env.shblog
在其中修改,增長以下內容:進程
SPARK_LOCAL_IP=服務器IP地址ip
Spark單機模式啓動hadoop
在bin目錄下執行:sh spark-shell --master=localget
啓動後 發現打印消息
Spark context Web UI available at http://localhost:4040//Spark的瀏覽器界面
看到這個頁面單機模式也就安裝成功了
2.集羣模式安裝
實現步驟:
1)上傳解壓spark安裝包
2)進入spark安裝目錄的conf目錄
3)配置spark-env.sh文件
配置示例:
#本機ip地址
SPARK_LOCAL_IP=spark01
#spark的shuffle中間過程會產生一些臨時文件,此項指定的是其存放目錄,不配置默認是在 /tmp目錄下
SPARK_LOCAL_DIRS=/home/software/spark/tmp
export JAVA_HOME=/home/software/jdk1.8
4)在conf目錄下,編輯slaves文件
配置示例:
spark01
spark02
spark03
5)配置完後,將spark目錄發送至其餘節點,並更改對應的 SPARK_LOCAL_IP 配置
啓動集羣
1)若是你想讓 01 虛擬機變爲master節點,則進入01 的spark安裝目錄的sbin目錄
執行: sh start-all.sh
2)經過jps查看各機器進程,
01:Master +Worker
02:Worker
03:Worker
3)經過瀏覽器訪問管理界面
4)經過spark shell 鏈接spark集羣
進入spark的bin目錄
執行:sh spark-shell.sh --master spark://192.168.222.22:7077
6)在集羣中讀取文件:
sc.textFile("/root/work/words.txt")
默認讀取本機數據 這種方式須要在集羣的每臺機器上的對應位置上都一份該文件 浪費磁盤
7)因此應該經過hdfs存儲數據
sc.textFile("hdfs://hadoop01:9000/mydata/words.txt");
注:能夠在spark-env.sh 中配置選項 HADOOP_CONF_DIR 配置爲hadoop的etc/hadoop的地址 使默認訪問的是hdfs的路徑
注:若是修改默認地址是hdfs地址 則若是想要訪問文件系統中的文件 須要指明協議爲file 例如 sc.text("file:///xxx/xx")