基於Spark的機器學習實踐 (三) - 實戰環境搭建

0 相關源碼

1 Spark環境安裝

◆ Spark 由scala語言編寫,提供多種語言接口,須要JVMhtml

◆ 官方爲咱們提供了Spark 編譯好的版本,能夠沒必要進行手動編譯git

◆ Spark安裝不難,配置須要注意,而且不必定須要Hadoop環境github

tar zxvf spark-2.4.1-bin-hadoop2.7.tgz
複製代碼

2 Spark配置

◆ 在配置前儘可能先閱讀官方文檔,避免直接從網上找配置教程bash

◆ 要爲節點設 置好使用的內存,不然可能致使節點利用率低;session

◆ 注意spark中IP與端口號的配置,以避免UnknownHostExceptionapp

官網配置

單機環境配置

  • 本地IP

shell進行驗證

bin/spark-shell
複製代碼

3 Spark shell

◆ Spark shell是一個bash腳本,在./bin目錄下

◆ Spark shell 爲咱們事先配置好了上下文(context) 和會話(session)

  • context實例

  • session實例

  • UI

4 實戰Wordcount

4.1 Wordcount簡介

◆ Wordcount 詞頻統計,是大數據分析中最爲基礎的一種任務 英文分詞較容易,直接分割空格便可。

◆ 實現思路 首先將文件中全部的單詞提取出來,而後合併相同單詞

  • 實現示意圖

項目搭建

  • 添加spark jar包

  • 全選jar包,先左鍵選中第一個,再拉到最後shift,再左鍵最後一個實現全選.

  • 新建類

  • 測試文件

`pwd`/`ls |grep L`
複製代碼

  • 編寫函數

  • 運行成功

  • 打包

  • 移除這些多餘的jar包

  • 構建

  • 將jar包放到spark/bin目錄下 使用 Spark-submit 運行

Spark機器學習實踐系列

相關文章
相關標籤/搜索