Python pycharm(windows版本)部署spark環境

  一 部署本地spark環境html


1.1  安裝好JDK
      下載並安裝好jdk1.7,配置完環境變量。
 
1.2 Spark環境變量配置
      去http://spark.apache.org/downloads.html網站下載相應hadoop對應的版本,我下載的是 spark-1.6.0-bin-hadoop2.6.tgz,spark版本是1.6,對應的hadoop版本是2.6

解壓下載的文件,假設解壓 目錄爲:D:\Spark-1.6.0-bin-hadoop2.6。將D:\spark-1.6.0-bin-hadoop2.6\bin添加到系統Path變量,同時新建SPARK_HOME變量,變量值爲:D:\spark-1.6.0-bin-hadoop2.6java

 

1.3 Hadoop相關包的安裝python

 

      spark是基於hadoop之上的,運行過程當中會調用相關hadoop庫,若是沒配置相關hadoop運行環境,會提示相關出錯信息,雖然也不影響運行。git

  去下載hadoop 2.6編譯好的包https://www.barik.net/archive/2015/01/19/172716/,我下載的是hadoop-2.6.0.tar.gz,解壓下載的文件夾,將相關庫添加到系統Path變量中:D:\hadoop-2.6.0\bin;同時新建HADOOP_HOME變量,變量值爲:D:\hadoop-2.6.0。同時去github上下載一個叫作 winutils  的組件,地址是 https://github.com/srccodes/hadoop-common-2.2.0-bin 若是沒有hadoop對應的版本(此時版本是 2.6),則去csdn上下載 http://download.csdn.net/detail/luoyepiaoxin/8860033,github

個人作法是把CSDN這個壓縮包裏的全部文件都複製到 hadoop_home的bin目錄下shell

 

二  Python環境apache

   Spark提供了2個交互式shell, 一個是pyspark(基於python), 一個是spark_shell(基於Scala). 這兩個環境實際上是並列的, 並無相互依賴關係, 因此若是僅僅是使用pyspark交互環境, 而不使用spark-shell的話, 甚至連scala都不須要安裝.windows

 2.1 下載並安裝Anaconda app

   anaconda是一個集成了python解釋器和大多數python庫的系統,安裝anaconda 後能夠不用再安裝python和pandas numpy等這些組件了。下載地址是 https://www.continuum.io/downloads。將python加到path環境變量中oop

三  啓動pyspark驗證

     在windows下命令行中啓動pyspark,如圖:

    

 

 四 在pycharm中配置開發環境   

  4.1 配置Pycharm

 
 更詳細的材料 參考 https://stackoverflow.com/questions/34685905/how-to-link-pycharm-with-pyspark

 打開PyCharm,建立一個Project。而後選擇「Run」 ->「Edit Configurations」
 

 選擇 「Environment variables」 增長SPARK_HOME目錄與PYTHONPATH目錄。

 

  • SPARK_HOME:Spark安裝目錄

  • PYTHONPATH:Spark安裝目錄下的Python目錄


     

     

4.2 測試程序

先測試環境是否正確,代碼以下:

  

import os
import sys
 
# Path for spark source folder
os.environ['SPARK_HOME']="D:\javaPackages\spark-1.6.0-bin-hadoop2.6"
 
# Append pyspark to Python Path
sys.path.append("D:\javaPackages\spark-1.6.0-bin-hadoop2.6\python")
 
try:
from pyspark import SparkContext
from pyspark import SparkConf
 
print ("Successfully imported Spark Modules")
 
except ImportError as e:
print ("Can not import Spark Modules", e)
sys.exit(1)

  

 
  若是程序能夠正常輸出: "Successfully imported Spark Modules"就說明環境已經能夠正常執行。
  以下圖,黃色框內的是具體的spark環境和python環境:
 

測試程序代碼來源於 github :https://gist.github.com/bigaidream/40fe0f8267a80e7c9cf8

轉原博客地址:http://blog.csdn.net/huangxia73/article/details/51372557

 

 

 

 

注意:

可能會報沒有 py4j ( 它是python用來鏈接java的中間件)

能夠用命令安裝:pip install py4j

相關文章
相關標籤/搜索