◆ Spark 由scala語言編寫,提供多種語言接口,須要JVMhtml
◆ 官方爲咱們提供了Spark 編譯好的版本,能夠沒必要進行手動編譯git
◆ Spark安裝不難,配置須要注意,而且不必定須要Hadoop環境github
下載 shell
解壓apache
tar zxvf spark-2.4.1-bin-hadoop2.7.tgz
複製代碼
◆ 在配置前儘可能先閱讀官方文檔,避免直接從網上找配置教程bash
◆ 要爲節點設 置好使用的內存,不然可能致使節點利用率低;session
◆ 注意spark中IP與端口號的配置,以避免UnknownHostException
app
bin/spark-shell
複製代碼
◆ Spark shell是一個bash腳本,在./bin
目錄下
◆ Spark shell 爲咱們事先配置好了上下文(context) 和會話(session)
context實例
session實例
◆ Wordcount 詞頻統計,是大數據分析中最爲基礎的一種任務 英文分詞較容易,直接分割空格便可。
◆ 實現思路 首先將文件中全部的單詞提取出來,而後合併相同單詞
添加spark jar包
全選jar包,先左鍵選中第一個,再拉到最後shift,再左鍵最後一個實現全選.
新建類
測試文件
`pwd`/`ls |grep L`
複製代碼
編寫函數
運行成功
打包
移除這些多餘的jar包
構建
將jar包放到spark/bin目錄下 使用 Spark-submit 運行