Spark的三種運行模式快速入門

一、Spark本地運行模式

控制檯:html

pyspark --master local[4]

打開瀏覽器,訪問http://localhost:4040可查看運行狀態。python

缺省使用的Python環境是2.7,若是但願使用python3,能夠設置環境變量 PYSPARK_PYTHON=python3.shell

在控制檯首先運行:apache

export PYSPARK_PYTHON=python3

或者將上述語句加入pyspark的腳本中,或者加入~/.bashrc文件中,或者加到.profile。控制檯窗口須要重啓纔有效。瀏覽器

二、Spark集羣運行模式

這裏介紹Spark的Standalone模式,即只有或主要運行Spark的集羣。
bash

2.1 啓動Master

啓動Master:app

start-master.sh

打開瀏覽器進入Master管理頁面: http://localhost:8080spa

能夠看到,通常啓動Master的監聽URL在:
URL:          spark://supermap:7077
REST URL: spark://supermap:6066(cluster mode)

日誌

2.2 啓動Slave

啓動Slave:
code

start-slaves.sh --master spark://supermap:7077

上面的--master參數爲啓動的master服務地址。
刷新Master的管理網頁,能夠看到新增長的worker。

2.3 啓動控制檯客戶端

鏈接集羣:

pyspark --master http://supermap:7077/

刷新Master的管理網頁,能夠看到新增長的Application.
點擊PySparkShell,進去能夠看到所運行的job等信息。

2.4 提交批處理任務

使用spark-submmit,具體參考:http://spark.apache.org/docs/latest/submitting-applications.html

注意,提交任務既能夠進入交互模式,也能夠使用deploy-mode。交互模式下,客戶端一直保持鏈接,並即時得到運行的信息。而deploy-mode提交後由後臺運行,關閉客戶端不影響任務的執行,運行信息須要經過日誌文件去查看。

三、Spark on Mesos協同運行模式

若是集羣上會運行不少任務,Spark的調度器與別的調度器會競爭資源,就須要更高級的調度器來進行協調,通常使用mesos或YARN。這裏再也不詳述,可參考:http://spark.apache.org/docs/latest/running-on-mesos.html

相關文章
相關標籤/搜索