windows下搭建spark+python 開發環境

有時候咱們會在windows 下開發spark程序,測試程序運行狀況,再部署到真實服務器中運行。html

那麼本文介紹如何在windows 環境中搭建簡單的基於hadoop 的spark 環境。 個人windows環境爲 Win7 64位java

第一步,安裝Python環境python

這裏很少講,個人環境爲python 3.6git

第二步,安裝Java 環境github

個人環境爲shell

C:\Users\Boss>java -version
java version "1.8.0_91"
Java(TM) SE Runtime Environment (build 1.8.0_91-b14)
Java HotSpot(TM) 64-Bit Server VM (build 25.91-b14, mixed mode)apache

第三步:下載sparkwindows

請注意:選擇了spark版本後會出現一個鏈接,以下圖紅色區域,此時居然能夠下載,可是這裏下載的文件是不正確的,應該點擊此鏈接進入下一個頁面。

這裏纔是正確的下載地址。

 

第四步:安裝Spark

  • 只需解壓程序包,並拷貝至存放路徑,注意安裝路徑中的文件夾名稱不要存在空格

  配置環境變量

  • 配置系統變量PATH,添加解壓後Spark 目錄下面的bin 和sbin 兩個目錄到PATH中

  

  配置日誌顯示級別 (這樣使得log日誌輸出少不少)

  • 選擇…\spark\conf\目錄下log4j.properties.template,複製爲log4j.properties

  • 將log4j.properties中,"INFO, console"改成"WARN, console"

 

第五步:配置Hadoop(這裏並不須要配置一個hadoop 僞分佈式,僅僅是爲spark提供一個hadoop環境模塊而已)

下載地址爲:https://github.com/LemenChao/Introduction-to-Data-Science/blob/master/Hadoop/hadoop.dll-and-winutils.exe-for-hadoop2.7.3-on-windows_X64-master.zip

安裝

只需解壓程序包,並拷貝至存放路徑,注意安裝路徑中的文件夾名稱不要存在空格

 

配置環境變量

  • 增長用戶變量HADOOP_HOME,值是下載的zip包解壓的目錄,而後在系統變量path裏增長$HADOOP_HOME\bin (此步驟若是沒有,則運行spark時會拋出Failed to locate the winutils binary in the hadoop binary path  java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries 異常,由於運行環境須要根據HADOOP_HOME找到winutils.exe,因爲win機器並無配置該環境變量,因此程序報 null\bin\winutils.exe)
  • 配置系統變量PATH,添加Hadoop解壓後的bin 路徑 如c:/hadoop/bin到Path中

到此安裝完畢,本地具備了一個基礎Spark版本

如何測試

方法一:測試spark-shell

在cmd中輸入spark-shell,查看Spark版本信息

方法二:測試 pyspark

在cmd中輸入pyspark,查看Pyspark版本信息

 

方法三:運行自帶的Spark example測序

打開cmd,輸入spark-submit --class org.apache.spark.examples.SparkPi --master local [spark exmple 路徑]

好比個人路徑下,命令爲(此example爲計算pi值)

spark-submit --class org.apache.spark.examples.SparkPi --master local D:\tools\bigdata\spark243\examples\jars\spark-examples_2.11-2.4.3.jar

 

相關文章
相關標籤/搜索