Spark 系列(二)—— Spark開發環境搭建

1、安裝Spark

1.1 下載並解壓

官方下載地址:http://spark.apache.org/downloads.html ,選擇 Spark 版本和對應的 Hadoop 版本後再下載:html

解壓安裝包:java

# tar -zxvf  spark-2.2.3-bin-hadoop2.6.tgz

1.2 配置環境變量

# vim /etc/profile

添加環境變量:git

export SPARK_HOME=/usr/app/spark-2.2.3-bin-hadoop2.6
export  PATH=${SPARK_HOME}/bin:$PATH

使得配置的環境變量當即生效:github

# source /etc/profile

1.3 Local模式

Local 模式是最簡單的一種運行方式,它採用單節點多線程方式運行,不用部署,開箱即用,適合平常測試開發。shell

# 啓動spark-shell
spark-shell --master local[2]
  • local:只啓動一個工做線程;
  • local[k]:啓動 k 個工做線程;
  • local[*]:啓動跟 cpu 數目相同的工做線程數。


進入 spark-shell 後,程序已經自動建立好了上下文 SparkContext,等效於執行了下面的 Scala 代碼:apache

val conf = new SparkConf().setAppName("Spark shell").setMaster("local[2]")
val sc = new SparkContext(conf)

2、詞頻統計案例

安裝完成後能夠先作一個簡單的詞頻統計例子,感覺 spark 的魅力。準備一個詞頻統計的文件樣本 wc.txt,內容以下:vim

hadoop,spark,hadoop
spark,flink,flink,spark
hadoop,hadoop

在 scala 交互式命令行中執行以下 Scala 語句:多線程

val file = spark.sparkContext.textFile("file:///usr/app/wc.txt")
val wordCounts = file.flatMap(line => line.split(",")).map((word => (word, 1))).reduceByKey(_ + _)
wordCounts.collect

執行過程以下,能夠看到已經輸出了詞頻統計的結果:app

同時還能夠經過 Web UI 查看做業的執行狀況,訪問端口爲 4040工具

3、Scala開發環境配置

Spark 是基於 Scala 語言進行開發的,分別提供了基於 Scala、Java、Python 語言的 API,若是你想使用 Scala 語言進行開發,則須要搭建 Scala 語言的開發環境。

3.1 前置條件

Scala 的運行依賴於 JDK,因此須要你本機有安裝對應版本的 JDK,最新的 Scala 2.12.x 須要 JDK 1.8+。

3.2 安裝Scala插件

IDEA 默認不支持 Scala 語言的開發,須要經過插件進行擴展。打開 IDEA,依次點擊 File => settings=> plugins 選項卡,搜索 Scala 插件 (以下圖)。找到插件後進行安裝,並重啓 IDEA 使得安裝生效。

3.3 建立Scala項目

在 IDEA 中依次點擊 File => New => Project 選項卡,而後選擇建立 Scala—IDEA 工程:

3.4 下載Scala SDK

1. 方式一

此時看到 Scala SDK 爲空,依次點擊 Create => Download ,選擇所需的版本後,點擊 OK 按鈕進行下載,下載完成點擊 Finish 進入工程。

2. 方式二

方式一是 Scala 官方安裝指南里使用的方式,但下載速度一般比較慢,且這種安裝下並無直接提供 Scala 命令行工具。因此我的推薦到官網下載安裝包進行安裝,下載地址:https://www.scala-lang.org/download/

這裏個人系統是 Windows,下載 msi 版本的安裝包後,一直點擊下一步進行安裝,安裝完成後會自動配置好環境變量。

因爲安裝時已經自動配置好環境變量,因此 IDEA 會自動選擇對應版本的 SDK。

3.5 建立Hello World

在工程 src 目錄上右擊 New => Scala class 建立 Hello.scala。輸入代碼以下,完成後點擊運行按鈕,成功運行則表明搭建成功。

3.6 切換Scala版本

在平常的開發中,因爲對應軟件(如 Spark)的版本切換,可能致使須要切換 Scala 的版本,則能夠在 Project Structures 中的 Global Libraries 選項卡中進行切換。

3.7 可能出現的問題

在 IDEA 中有時候從新打開項目後,右擊並不會出現新建 scala 文件的選項,或者在編寫時沒有 Scala 語法提示,此時能夠先刪除 Global Libraries 中配置好的 SDK,以後再從新添加:

另外在 IDEA 中以本地模式運行 Spark 項目是不須要在本機搭建 Spark 和 Hadoop 環境的。

更多大數據系列文章能夠參見 GitHub 開源項目大數據入門指南

相關文章
相關標籤/搜索