有時候咱們會在windows 下開發spark程序,測試程序運行狀況,再部署到真實服務器中運行。html
那麼本文介紹如何在windows 環境中搭建簡單的基於hadoop 的spark 環境。 個人windows環境爲 Win7 64位java
第一步,安裝Python環境python
這裏很少講,個人環境爲python 3.6git
第二步,安裝Java 環境github
個人環境爲shell
C:\Users\Boss>java -version
java version "1.8.0_91"
Java(TM) SE Runtime Environment (build 1.8.0_91-b14)
Java HotSpot(TM) 64-Bit Server VM (build 25.91-b14, mixed mode)apache
第三步:下載sparkwindows
下載Spark2.2.0,注意與操做系統版本一致服務器
請注意:選擇了spark版本後會出現一個鏈接,以下圖紅色區域,此時居然能夠下載,可是這裏下載的文件是不正確的,應該點擊此鏈接進入下一個頁面。
這裏纔是正確的下載地址。
第四步:安裝Spark
只需解壓程序包,並拷貝至存放路徑,注意安裝路徑中的文件夾名稱不要存在空格
配置環境變量
配置系統變量PATH,添加解壓後Spark 目錄下面的bin 和sbin 兩個目錄到PATH中
配置日誌顯示級別 (這樣使得log日誌輸出少不少)
選擇…\spark\conf\目錄下log4j.properties.template,複製爲log4j.properties
將log4j.properties中,"INFO, console"改成"WARN, console"
第五步:配置Hadoop(這裏並不須要配置一個hadoop 僞分佈式,僅僅是爲spark提供一個hadoop環境模塊而已)
下載地址爲:https://github.com/LemenChao/Introduction-to-Data-Science/blob/master/Hadoop/hadoop.dll-and-winutils.exe-for-hadoop2.7.3-on-windows_X64-master.zip
安裝
只需解壓程序包,並拷貝至存放路徑,注意安裝路徑中的文件夾名稱不要存在空格
配置環境變量
java.io.IOException: Could not locate executable
null
\bin\winutils.exe in the Hadoop binaries 異常,由於運行環境須要根據HADOOP_HOME找到winutils.exe,因爲win機器並無配置該環境變量,因此程序報 null\bin\winutils.exe
)配置系統變量PATH,添加Hadoop解壓後的bin 路徑 如c:/hadoop/bin到Path中
到此安裝完畢,本地具備了一個基礎Spark版本
如何測試
方法一:測試spark-shell
在cmd中輸入spark-shell,查看Spark版本信息
方法二:測試 pyspark
在cmd中輸入pyspark,查看Pyspark版本信息
方法三:運行自帶的Spark example測序
打開cmd,輸入spark-submit --class org.apache.spark.examples.SparkPi --master local [spark exmple 路徑]
好比個人路徑下,命令爲(此example爲計算pi值)
spark-submit --class org.apache.spark.examples.SparkPi --master local D:\tools\bigdata\spark243\examples\jars\spark-examples_2.11-2.4.3.jar