Pycharm配置hadoop+spark環境(windows篇)

  首先,安裝好pycharm和anaconda(這裏使用anaconda2爲例)。接着,下載對應版本的hadoop和spark平臺並進行配置。python

在這裏,咱們將hadoop解壓到:D:\hadoop-2.7.2testlinux

而後將spark解壓到:D:\spark-2.0.0-hadoop2.7sql

  一、在win下的配置與linux下不一樣,主要在於配置cmd腳本。想省心的同窗能夠直接下載我配置好的版本,連接見文末。windows

  在spark的conf那新增spark-env.cmd文件並編輯以下:緩存

set HADOOP_HOME=D:\hadoop-2.7.2test
set HADOOP_CONF_DIR=D:\hadoop-2.7.2test\etc\hadoop
set SPARK_YARN_USER_ENV="CLASSPATH=D:\hadoop-2.7.2test\etc\hadoop"

set SPARK_MASTER_HOST=bigmaster

set SPARK_WORKER_CORES=2

set SPARK_WORKER_MEMORY=1g

 

  二、打開pycharm,咱們配置python運行的環境變量:app

PYSPARK_PYTHON=D:\Program files\Anaconda2\python.exe;
HADOOP_USER_NAME=hadoop;
PYTHONUNBUFFERED=1;
SPARK_HOME=D:\spark-2.0.0-hadoop2.7;
HADOOP_HOME=D:\hadoop-2.7.2test

 

  3、注意hadoop\bin文件夾裏面要有winutil.exe。官網下載是不帶的,這裏文末的連接是我配置好的,已經帶winutil.exe。這個exe的做用是模擬一個linux文件系統環境,使得hadoop可以使用linux文件結構思惟來操做windows下的目錄。oop

  四、在D盤根目錄創建一個臨時文件夾tmp,用於存放spark和hadoop在運行中產生的緩存文件。ui

  五、實際程序以下,咱們能夠看到在win下本地運行的時候,須要配置臨時文件夾:spa

if __name__ == "__main__":

    conf = SparkConf()
    conf = conf.setMaster("local[1]")
    conf = conf.set('spark.sql.warehouse.dir', 'file:///d:/tmp')

    spark = SparkSession.builder.appName('data export').config(conf=conf).getOrCreate()
    sc = spark.sparkContext
    sc.setLogLevel("ERROR")

    df = spark.read.csv('D:\\book.csv', header=True)
    df.show()
    df.rdd.filter(lambda r: r is not None).toDF().show(5)
    exit(0)

示例中讀取的book.csv文件內容以下:code

a,b,c,d,e
1,6,11,16,21
2,7,12,17,22
3,8,13,18,23
4,9,14,19,24
5,10,15,20,25

  六、最終運行結果

 

winutil.exe下載

https://pan.baidu.com/s/17GIct-5LAiztjoCo_FvXdA

配置好的hadoop和spark下載(請放在D盤根目錄下)

https://pan.baidu.com/s/1Jx3w88DQ0WWPyrZy-7UpvA

相關文章
相關標籤/搜索