Spark 系列（二）—— Spark開發環境搭建

時間 2019-11-21

原文原文鏈接

1、安裝Spark

1.1 下載並解壓

官方下載地址：http://spark.apache.org/downloads.html ，選擇 Spark 版本和對應的 Hadoop 版本後再下載：html

解壓安裝包：java

# tar -zxvf  spark-2.2.3-bin-hadoop2.6.tgz

1.2 配置環境變量

# vim /etc/profile

添加環境變量：git

export SPARK_HOME=/usr/app/spark-2.2.3-bin-hadoop2.6
export  PATH=${SPARK_HOME}/bin:$PATH

使得配置的環境變量當即生效：github

# source /etc/profile

1.3 Local模式

Local 模式是最簡單的一種運行方式，它採用單節點多線程方式運行，不用部署，開箱即用，適合平常測試開發。shell

# 啓動spark-shell
spark-shell --master local[2]

local：只啓動一個工做線程；
local[k]：啓動 k 個工做線程；
local[*]：啓動跟 cpu 數目相同的工做線程數。

進入 spark-shell 後，程序已經自動建立好了上下文 SparkContext，等效於執行了下面的 Scala 代碼：apache

val conf = new SparkConf().setAppName("Spark shell").setMaster("local[2]")
val sc = new SparkContext(conf)

2、詞頻統計案例

安裝完成後能夠先作一個簡單的詞頻統計例子，感覺 spark 的魅力。準備一個詞頻統計的文件樣本 wc.txt，內容以下：vim

hadoop,spark,hadoop
spark,flink,flink,spark
hadoop,hadoop

在 scala 交互式命令行中執行以下 Scala 語句：多線程

val file = spark.sparkContext.textFile("file:///usr/app/wc.txt")
val wordCounts = file.flatMap(line => line.split(",")).map((word => (word, 1))).reduceByKey(_ + _)
wordCounts.collect

執行過程以下，能夠看到已經輸出了詞頻統計的結果：app

同時還能夠經過 Web UI 查看做業的執行狀況，訪問端口爲 4040：工具

3、Scala開發環境配置

Spark 是基於 Scala 語言進行開發的，分別提供了基於 Scala、Java、Python 語言的 API，若是你想使用 Scala 語言進行開發，則須要搭建 Scala 語言的開發環境。

3.1 前置條件

Scala 的運行依賴於 JDK，因此須要你本機有安裝對應版本的 JDK，最新的 Scala 2.12.x 須要 JDK 1.8+。

3.2 安裝Scala插件

IDEA 默認不支持 Scala 語言的開發，須要經過插件進行擴展。打開 IDEA，依次點擊 File => settings=> plugins 選項卡，搜索 Scala 插件 (以下圖)。找到插件後進行安裝，並重啓 IDEA 使得安裝生效。

3.3 建立Scala項目

在 IDEA 中依次點擊 File => New => Project 選項卡，而後選擇建立 Scala—IDEA 工程：

3.4 下載Scala SDK

1. 方式一

此時看到 Scala SDK 爲空，依次點擊 Create => Download ，選擇所需的版本後，點擊 OK 按鈕進行下載，下載完成點擊 Finish 進入工程。

2. 方式二

方式一是 Scala 官方安裝指南里使用的方式，但下載速度一般比較慢，且這種安裝下並無直接提供 Scala 命令行工具。因此我的推薦到官網下載安裝包進行安裝，下載地址：https://www.scala-lang.org/download/

這裏個人系統是 Windows，下載 msi 版本的安裝包後，一直點擊下一步進行安裝，安裝完成後會自動配置好環境變量。

因爲安裝時已經自動配置好環境變量，因此 IDEA 會自動選擇對應版本的 SDK。

3.5 建立Hello World

在工程 src 目錄上右擊 New => Scala class 建立 Hello.scala。輸入代碼以下，完成後點擊運行按鈕，成功運行則表明搭建成功。

3.6 切換Scala版本

在平常的開發中，因爲對應軟件（如 Spark）的版本切換，可能致使須要切換 Scala 的版本，則能夠在 Project Structures 中的 Global Libraries 選項卡中進行切換。

3.7 可能出現的問題

在 IDEA 中有時候從新打開項目後，右擊並不會出現新建 scala 文件的選項，或者在編寫時沒有 Scala 語法提示，此時能夠先刪除 Global Libraries 中配置好的 SDK，以後再從新添加：

另外在 IDEA 中以本地模式運行 Spark 項目是不須要在本機搭建 Spark 和 Hadoop 環境的。

更多大數據系列文章能夠參見 GitHub 開源項目： 大數據入門指南

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。