控制檯:html
pyspark --master local[4]
打開瀏覽器,訪問http://localhost:4040可查看運行狀態。python
缺省使用的Python環境是2.7,若是但願使用python3,能夠設置環境變量 PYSPARK_PYTHON=python3.shell
在控制檯首先運行:apache
export PYSPARK_PYTHON=python3
或者將上述語句加入pyspark的腳本中,或者加入~/.bashrc文件中,或者加到.profile。控制檯窗口須要重啓纔有效。瀏覽器
這裏介紹Spark的Standalone模式,即只有或主要運行Spark的集羣。
bash
啓動Master:app
start-master.sh
打開瀏覽器進入Master管理頁面: http://localhost:8080spa
能夠看到,通常啓動Master的監聽URL在:
URL: spark://supermap:7077
REST URL: spark://supermap:6066(cluster mode)
日誌
啓動Slave:
code
start-slaves.sh --master spark://supermap:7077
上面的--master參數爲啓動的master服務地址。
刷新Master的管理網頁,能夠看到新增長的worker。
鏈接集羣:
pyspark --master http://supermap:7077/
刷新Master的管理網頁,能夠看到新增長的Application.
點擊PySparkShell,進去能夠看到所運行的job等信息。
使用spark-submmit,具體參考:http://spark.apache.org/docs/latest/submitting-applications.html
注意,提交任務既能夠進入交互模式,也能夠使用deploy-mode。交互模式下,客戶端一直保持鏈接,並即時得到運行的信息。而deploy-mode提交後由後臺運行,關閉客戶端不影響任務的執行,運行信息須要經過日誌文件去查看。
若是集羣上會運行不少任務,Spark的調度器與別的調度器會競爭資源,就須要更高級的調度器來進行協調,通常使用mesos或YARN。這裏再也不詳述,可參考:http://spark.apache.org/docs/latest/running-on-mesos.html