Python pycharm（windows版本）部署spark環境

時間 2019-11-17

標籤 python pycharm windows 版本部署 spark 環境欄目 Python 简体版

原文原文鏈接

　　一部署本地spark環境html

1.1 安裝好JDK

下載並安裝好jdk1.7，配置完環境變量。

1.2 Spark環境變量配置

去http://spark.apache.org/downloads.html網站下載相應hadoop對應的版本，我下載的是 spark-1.6.0-bin-hadoop2.6.tgz，spark版本是1.6，對應的hadoop版本是2.6

解壓下載的文件，假設解壓目錄爲：D:\Spark-1.6.0-bin-hadoop2.6。將D:\spark-1.6.0-bin-hadoop2.6\bin添加到系統Path變量，同時新建SPARK_HOME變量，變量值爲：D:\spark-1.6.0-bin-hadoop2.6java

1.3 Hadoop相關包的安裝python

spark是基於hadoop之上的，運行過程當中會調用相關hadoop庫，若是沒配置相關hadoop運行環境，會提示相關出錯信息，雖然也不影響運行。git

去下載hadoop 2.6編譯好的包https://www.barik.net/archive/2015/01/19/172716/，我下載的是hadoop-2.6.0.tar.gz，解壓下載的文件夾，將相關庫添加到系統Path變量中：D:\hadoop-2.6.0\bin；同時新建HADOOP_HOME變量，變量值爲：D:\hadoop-2.6.0。同時去github上下載一個叫作 winutils 的組件，地址是 https://github.com/srccodes/hadoop-common-2.2.0-bin 若是沒有hadoop對應的版本(此時版本是 2.6)，則去csdn上下載 http://download.csdn.net/detail/luoyepiaoxin/8860033，github

個人作法是把CSDN這個壓縮包裏的全部文件都複製到 hadoop_home的bin目錄下shell

二 Python環境apache

Spark提供了2個交互式shell, 一個是pyspark(基於python), 一個是spark_shell(基於Scala). 這兩個環境實際上是並列的, 並無相互依賴關係, 因此若是僅僅是使用pyspark交互環境, 而不使用spark-shell的話, 甚至連scala都不須要安裝.windows

2.1 下載並安裝Anaconda app

anaconda是一個集成了python解釋器和大多數python庫的系統，安裝anaconda 後能夠不用再安裝python和pandas numpy等這些組件了。下載地址是 https://www.continuum.io/downloads。將python加到path環境變量中oop

三啓動pyspark驗證

在windows下命令行中啓動pyspark,如圖:

四在pycharm中配置開發環境

4.1 配置Pycharm

更詳細的材料參考 https://stackoverflow.com/questions/34685905/how-to-link-pycharm-with-pyspark

打開PyCharm，建立一個Project。而後選擇「Run」 ->「Edit Configurations」

選擇「Environment variables」增長SPARK_HOME目錄與PYTHONPATH目錄。

SPARK_HOME:Spark安裝目錄
PYTHONPATH:Spark安裝目錄下的Python目錄

4.2 測試程序

先測試環境是否正確，代碼以下:

import os
import sys
 
# Path for spark source folder
os.environ['SPARK_HOME']="D:\javaPackages\spark-1.6.0-bin-hadoop2.6"
 
# Append pyspark to Python Path
sys.path.append("D:\javaPackages\spark-1.6.0-bin-hadoop2.6\python")
 
try:
from pyspark import SparkContext
from pyspark import SparkConf
 
print ("Successfully imported Spark Modules")
 
except ImportError as e:
print ("Can not import Spark Modules", e)
sys.exit(1)

若是程序能夠正常輸出: "Successfully imported Spark Modules"就說明環境已經能夠正常執行。

以下圖，黃色框內的是具體的spark環境和python環境:

測試程序代碼來源於 github :https://gist.github.com/bigaidream/40fe0f8267a80e7c9cf8

轉原博客地址：http://blog.csdn.net/huangxia73/article/details/51372557

注意：

可能會報沒有 py4j ( 它是python用來鏈接java的中間件)

能夠用命令安裝：pip install py4j