Pycharm配置hadoop+spark環境（windows篇）

時間 2019-11-05

標籤 pycharm 配置 hadoop+spark hadoop spark 環境 windows 欄目 Hadoop 简体版

原文原文鏈接

　　首先，安裝好pycharm和anaconda（這裏使用anaconda2爲例）。接着，下載對應版本的hadoop和spark平臺並進行配置。python

在這裏，咱們將hadoop解壓到：D:\hadoop-2.7.2testlinux

而後將spark解壓到：D:\spark-2.0.0-hadoop2.7sql

　　一、在win下的配置與linux下不一樣，主要在於配置cmd腳本。想省心的同窗能夠直接下載我配置好的版本，連接見文末。windows

　　在spark的conf那新增spark-env.cmd文件並編輯以下：緩存

set HADOOP_HOME=D:\hadoop-2.7.2test
set HADOOP_CONF_DIR=D:\hadoop-2.7.2test\etc\hadoop
set SPARK_YARN_USER_ENV="CLASSPATH=D:\hadoop-2.7.2test\etc\hadoop"

set SPARK_MASTER_HOST=bigmaster

set SPARK_WORKER_CORES=2

set SPARK_WORKER_MEMORY=1g

　　二、打開pycharm，咱們配置python運行的環境變量：app

PYSPARK_PYTHON=D:\Program files\Anaconda2\python.exe;
HADOOP_USER_NAME=hadoop;
PYTHONUNBUFFERED=1;
SPARK_HOME=D:\spark-2.0.0-hadoop2.7;
HADOOP_HOME=D:\hadoop-2.7.2test

　　３、注意hadoop\bin文件夾裏面要有winutil.exe。官網下載是不帶的，這裏文末的連接是我配置好的，已經帶winutil.exe。這個exe的做用是模擬一個linux文件系統環境，使得hadoop可以使用linux文件結構思惟來操做windows下的目錄。oop

　　四、在D盤根目錄創建一個臨時文件夾tmp，用於存放spark和hadoop在運行中產生的緩存文件。ui

　　五、實際程序以下，咱們能夠看到在win下本地運行的時候，須要配置臨時文件夾：spa

if __name__ == "__main__":

    conf = SparkConf()
    conf = conf.setMaster("local[1]")
    conf = conf.set('spark.sql.warehouse.dir', 'file:///d:/tmp')

    spark = SparkSession.builder.appName('data export').config(conf=conf).getOrCreate()
    sc = spark.sparkContext
    sc.setLogLevel("ERROR")

    df = spark.read.csv('D:\\book.csv', header=True)
    df.show()
    df.rdd.filter(lambda r: r is not None).toDF().show(5)
    exit(0)

示例中讀取的book.csv文件內容以下：code

a,b,c,d,e
1,6,11,16,21
2,7,12,17,22
3,8,13,18,23
4,9,14,19,24
5,10,15,20,25

　　六、最終運行結果

winutil.exe下載

https://pan.baidu.com/s/17GIct-5LAiztjoCo_FvXdA

配置好的hadoop和spark下載（請放在D盤根目錄下）

https://pan.baidu.com/s/1Jx3w88DQ0WWPyrZy-7UpvA

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。