windows下搭建spark+python 開發環境

時間 2020-05-06

標籤 windows 搭建 spark+python spark python 開發環境欄目 Windows 简体版

原文原文鏈接

有時候咱們會在windows 下開發spark程序，測試程序運行狀況，再部署到真實服務器中運行。html

那麼本文介紹如何在windows 環境中搭建簡單的基於hadoop 的spark 環境。個人windows環境爲 Win7 64位java

第一步，安裝Python環境python

這裏很少講，個人環境爲python 3.6git

第二步，安裝Java 環境github

個人環境爲shell

C:\Users\Boss>java -version
java version "1.8.0_91"
Java(TM) SE Runtime Environment (build 1.8.0_91-b14)
Java HotSpot(TM) 64-Bit Server VM (build 25.91-b14, mixed mode)apache

第三步:下載sparkwindows

下載Spark2.2.0，注意與操做系統版本一致服務器
下載地址爲：http://spark.apache.org/downloads.html分佈式

請注意：選擇了spark版本後會出現一個鏈接，以下圖紅色區域，此時居然能夠下載，可是這裏下載的文件是不正確的，應該點擊此鏈接進入下一個頁面。

這裏纔是正確的下載地址。

第四步：安裝Spark

只需解壓程序包，並拷貝至存放路徑，注意安裝路徑中的文件夾名稱不要存在空格

　　配置環境變量

配置系統變量PATH，添加解壓後Spark 目錄下面的bin 和sbin 兩個目錄到PATH中

　　配置日誌顯示級別 (這樣使得log日誌輸出少不少)

選擇…\spark\conf\目錄下log4j.properties.template，複製爲log4j.properties
將log4j.properties中，"INFO, console"改成"WARN, console"

第五步：配置Hadoop(這裏並不須要配置一個hadoop 僞分佈式，僅僅是爲spark提供一個hadoop環境模塊而已)

下載地址爲：https://github.com/LemenChao/Introduction-to-Data-Science/blob/master/Hadoop/hadoop.dll-and-winutils.exe-for-hadoop2.7.3-on-windows_X64-master.zip

安裝

只需解壓程序包，並拷貝至存放路徑，注意安裝路徑中的文件夾名稱不要存在空格

配置環境變量

增長用戶變量HADOOP_HOME，值是下載的zip包解壓的目錄，而後在系統變量path裏增長$HADOOP_HOME\bin (此步驟若是沒有，則運行spark時會拋出Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries 異常，由於運行環境須要根據HADOOP_HOME找到winutils.exe,因爲win機器並無配置該環境變量，因此程序報 null\bin\winutils.exe)
配置系統變量PATH，添加Hadoop解壓後的bin 路徑如c:/hadoop/bin到Path中

到此安裝完畢，本地具備了一個基礎Spark版本

如何測試

方法一：測試spark-shell

在cmd中輸入spark-shell，查看Spark版本信息

方法二：測試 pyspark

在cmd中輸入pyspark，查看Pyspark版本信息

方法三：運行自帶的Spark example測序

打開cmd，輸入spark-submit --class org.apache.spark.examples.SparkPi --master local [spark exmple 路徑]

好比個人路徑下，命令爲(此example爲計算pi值)

spark-submit --class org.apache.spark.examples.SparkPi --master local D:\tools\bigdata\spark243\examples\jars\spark-examples_2.11-2.4.3.jar