【目的】html
Windows 10 裸機搭建 Spark 環境,使能運行 PySpark Shell。python
【原料】git
Windows 10 x64github
jdk-8u162-windows-x64.exeapache
python-3.6.7-amd64.exewindows
spark-2.3.2-bin-hadoop2.7.tgzbash
hadoop-2.7.7.tar.gzapp
winutils.exe
ide
【安裝 JDK】
oop
雙擊 jdk-8u162-windows-x64.exe 安裝,後續基本上就是一路「next」。
配置環境變量
# 可經過 echo %JAVA_HOME% 檢驗 JAVA_HOME: C:\Program Files\Java\jdk1.8.0_162 # 可經過 echo %CLASS_PATH% 檢驗 CLASS_PATH: C:\Program Files\Java\jdk1.8.0_162\lib # 可經過 echo %PATH% 檢驗 Path: C:\Program Files\Java\jdk1.8.0_162\bin
【安裝 Python3】
雙擊 python-3.6.7-amd64.exe 安裝
爲了便於代碼補全,建議安裝如下兩個第三方包
# 安裝ipython pip3 install ipython -i https://pypi.doubanio.com/simple/ # 安裝pyreadline pip3 install pyreadline -i https://pypi.doubanio.com/simple/
【安裝 Spark】
到 http://spark.apache.org/downloads.html 下載 spark-2.3.2-bin-hadoop2.7.tgz 並解壓,walker 解壓到了 D:\spark 目錄。
到這裏,pyspark 已經能夠運行了,但會提示找不到 winutils.exe。
配置環境變量
SPARK_HOME: D:\spark\spark-2.3.2-bin-hadoop2.7 PATH: D:\spark\spark-2.3.2-bin-hadoop2.7\bin
【安裝 Hadoop】
到 https://archive.apache.org/dist/hadoop/common/hadoop-2.7.7/ 下載 hadoop-2.7.7.tar.gz 並解壓。若是報錯「Can not create symbolic link : 客戶端沒有所需特權。」,以管理員身份運行解壓軟件後解壓便可。
配置環境變量
HADOOP_HOME: D:\spark\hadoop-2.7.7 PATH: D:\spark\hadoop-2.7.7\bin
修改 D:\spark\hadoop-2.7.7\etc\hadoop\文件,不然可能報相似這種錯誤「Error: JAVA_HOME is incorrectly set. Please update F:\hadoop\conf\hadoop-env.cmd」
# 由於 JAVA_HOME 環境變量有空格,因此作以下修改 set JAVA_HOME=%JAVA_HOME% # --->>> set JAVA_HOME=C:\PROGRA~1\Java\\jdk1.8.0_162
開 cmd 輸入 hadoop version,有以下輸出即正常
Hadoop 2.7.7 Subversion Unknown -r c1aad84bd27cd79c3d1a7dd58202a8c3ee1ed3ac Compiled by stevel on 2018-07-18T22:47Z Compiled with protoc 2.5.0 From source with checksum 792e15d20b12c74bd6f19a1fb886490 This command was run using /D:/spark/hadoop-2.7.7/share/hadoop/common/hadoop-common-2.7.7.jar
【winutils.exe】
到 https://github.com/steveloughran/winutils 下載對應版本的 winutils.exe,放入 D:\spark\hadoop-2.7.7\bin。
【Python 腳本測試】
腳本以下(t.py)
from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster("local").setAppName("My App") sc = SparkContext(conf = conf) print('***************************** %s' % sc.appName) sc.stop()
用 spark-submit t.py 命令運行腳本,包含以下輸出即正確。
***************************** My App
【FAQ】
報錯 ModuleNotFoundError: No module named 'resource'
可能你用的 spark 版本對 Windows 10 太新了,換成 Spark 2.3.2 或如下的版本便可。
【相關閱讀】
*** walker ***