一 部署本地spark環境html
解壓下載的文件,假設解壓 目錄爲:D:\Spark-1.6.0-bin-hadoop2.6。將D:\spark-1.6.0-bin-hadoop2.6\bin添加到系統Path變量,同時新建SPARK_HOME變量,變量值爲:D:\spark-1.6.0-bin-hadoop2.6java
1.3 Hadoop相關包的安裝python
spark是基於hadoop之上的,運行過程當中會調用相關hadoop庫,若是沒配置相關hadoop運行環境,會提示相關出錯信息,雖然也不影響運行。git
去下載hadoop 2.6編譯好的包https://www.barik.net/archive/2015/01/19/172716/,我下載的是hadoop-2.6.0.tar.gz,解壓下載的文件夾,將相關庫添加到系統Path變量中:D:\hadoop-2.6.0\bin;同時新建HADOOP_HOME變量,變量值爲:D:\hadoop-2.6.0。同時去github上下載一個叫作 winutils 的組件,地址是 https://github.com/srccodes/hadoop-common-2.2.0-bin 若是沒有hadoop對應的版本(此時版本是 2.6),則去csdn上下載 http://download.csdn.net/detail/luoyepiaoxin/8860033,github
個人作法是把CSDN這個壓縮包裏的全部文件都複製到 hadoop_home的bin目錄下shell
二 Python環境apache
Spark提供了2個交互式shell, 一個是pyspark(基於python), 一個是spark_shell(基於Scala). 這兩個環境實際上是並列的, 並無相互依賴關係, 因此若是僅僅是使用pyspark交互環境, 而不使用spark-shell的話, 甚至連scala都不須要安裝.windows
2.1 下載並安裝Anaconda app
anaconda是一個集成了python解釋器和大多數python庫的系統,安裝anaconda 後能夠不用再安裝python和pandas numpy等這些組件了。下載地址是 https://www.continuum.io/downloads。將python加到path環境變量中oop
三 啓動pyspark驗證
在windows下命令行中啓動pyspark,如圖:
四 在pycharm中配置開發環境
打開PyCharm,建立一個Project。而後選擇「Run」 ->「Edit Configurations」
SPARK_HOME:Spark安裝目錄
PYTHONPATH:Spark安裝目錄下的Python目錄
4.2 測試程序
先測試環境是否正確,代碼以下:
import os import sys # Path for spark source folder os.environ['SPARK_HOME']="D:\javaPackages\spark-1.6.0-bin-hadoop2.6" # Append pyspark to Python Path sys.path.append("D:\javaPackages\spark-1.6.0-bin-hadoop2.6\python") try: from pyspark import SparkContext from pyspark import SparkConf print ("Successfully imported Spark Modules") except ImportError as e: print ("Can not import Spark Modules", e) sys.exit(1)
測試程序代碼來源於 github :https://gist.github.com/bigaidream/40fe0f8267a80e7c9cf8
轉原博客地址:http://blog.csdn.net/huangxia73/article/details/51372557
注意:
可能會報沒有 py4j ( 它是python用來鏈接java的中間件)
能夠用命令安裝:pip install py4j