一、下載版本對應的spark和hadoop,以下:python
二、配置Sparkgit
解壓Spark並配置環境變量,github
新建環境變量以下:oop
在Path中增長以下環境變量: spa
三、配置hadoop相關變量,code
四、下載hadoop組件,並進行配置(winutils )blog
下載地址:https://github.com/srccodes/hadoop-common-2.2.0-binip
將下載好的組件解壓放到hadoop_home的bin目錄下,不進行文件替換hadoop
五、驗證是否安裝成功,打開cmd執行pyspark,成功以下:get
六、配置pycharm,安裝pycharm,此處再也不詳細描述
七、爲pycharm安裝 pyspark組件,file—>settings—>Project Interpreter
安裝組件pyspark
八、配置,環境,run—>Edit Configurations add Python,以下
而後配置以下:
SPARK_HOME : D:\hadoop\spark-2.3.0-bin-hadoop2.7
HADOOP_HOME : D:\hadoop\hadoop-2.9.0
PYTHONPATH : D:\hadoop\spark-2.3.0-bin-hadoop2.7\python\lib\py4j-0.10.6-src.zip
九、而後就ok了