首先,安裝好pycharm和anaconda(這裏使用anaconda2爲例)。接着,下載對應版本的hadoop和spark平臺並進行配置。python
在這裏,咱們將hadoop解壓到:D:\hadoop-2.7.2testlinux
而後將spark解壓到:D:\spark-2.0.0-hadoop2.7sql
一、在win下的配置與linux下不一樣,主要在於配置cmd腳本。想省心的同窗能夠直接下載我配置好的版本,連接見文末。windows
在spark的conf那新增spark-env.cmd文件並編輯以下:緩存
set HADOOP_HOME=D:\hadoop-2.7.2test set HADOOP_CONF_DIR=D:\hadoop-2.7.2test\etc\hadoop set SPARK_YARN_USER_ENV="CLASSPATH=D:\hadoop-2.7.2test\etc\hadoop" set SPARK_MASTER_HOST=bigmaster set SPARK_WORKER_CORES=2 set SPARK_WORKER_MEMORY=1g
二、打開pycharm,咱們配置python運行的環境變量:app
PYSPARK_PYTHON=D:\Program files\Anaconda2\python.exe; HADOOP_USER_NAME=hadoop; PYTHONUNBUFFERED=1; SPARK_HOME=D:\spark-2.0.0-hadoop2.7; HADOOP_HOME=D:\hadoop-2.7.2test
3、注意hadoop\bin文件夾裏面要有winutil.exe。官網下載是不帶的,這裏文末的連接是我配置好的,已經帶winutil.exe。這個exe的做用是模擬一個linux文件系統環境,使得hadoop可以使用linux文件結構思惟來操做windows下的目錄。oop
四、在D盤根目錄創建一個臨時文件夾tmp,用於存放spark和hadoop在運行中產生的緩存文件。ui
五、實際程序以下,咱們能夠看到在win下本地運行的時候,須要配置臨時文件夾:spa
if __name__ == "__main__": conf = SparkConf() conf = conf.setMaster("local[1]") conf = conf.set('spark.sql.warehouse.dir', 'file:///d:/tmp') spark = SparkSession.builder.appName('data export').config(conf=conf).getOrCreate() sc = spark.sparkContext sc.setLogLevel("ERROR") df = spark.read.csv('D:\\book.csv', header=True) df.show() df.rdd.filter(lambda r: r is not None).toDF().show(5) exit(0)
示例中讀取的book.csv文件內容以下:code
a,b,c,d,e 1,6,11,16,21 2,7,12,17,22 3,8,13,18,23 4,9,14,19,24 5,10,15,20,25
六、最終運行結果
winutil.exe下載
https://pan.baidu.com/s/17GIct-5LAiztjoCo_FvXdA
配置好的hadoop和spark下載(請放在D盤根目錄下)