window10搭建pyspark（超級詳細）

時間 2019-12-08

標籤 window10 window 搭建 pyspark 超級詳細欄目 Windows 简体版

原文原文鏈接

1、組件版本說明html

Java JDK:1.8.0_144python

spark-2.4.3-bin-hadoop2.7
hadoop-2.7.7apache

scala-2.12.8windows

hadooponwindows-masteroop

Python3.7spa

注意事項：命令行

Spark運行在Java 8 +，Python 2.7 + / 3.4 +和R 3.1+上。對於Scala API，Spark 2.4.3使用Scala 2.12。您須要使用兼容的Scala版本（2.12.x）scala

一、JDK安裝3d

下載安裝後配置環境變量：code

配置環境變量的方法爲電腦[右鍵]——>屬性——>環境變量，編輯環境變量方法見下圖

配置完成後：開啓cmd窗口

二、配置Scala

下載地址：

https://www.scala-lang.org/download/2.12.8.html

安裝完成後，配置環境變量

三、安裝Spark

下載地址：

http://spark.apache.org/downloads.html

解壓後配置環境變量：

四、安裝hadoop

下載地址：

http://hadoop.apache.org/releases.html

解壓後配置環境變量：

五、安裝Python3.7

六、把hadooponwindows-master的bin覆蓋hadoop-2.7.7的bin

七、處理Python相關

1，將spark所在目錄下（好比個人D:\IT\bigdata\soft\spark-2.4.3-bin-hadoop2.7\python）的pyspark文件夾拷貝到python文件夾下（個人是D:\IT\python\Python\Lib\site-packages）

2，安裝py4j庫

通常的在cmd命令行下 pip install py4j 就能夠。如果沒有將pip路徑添加到path中，就將路徑切換到python的Scripts中，而後再 pip install py4j 來安裝庫。

3 修改權限

將winutils.exe文件放到Hadoop的bin目錄下（個人是E:\spark\spark-2.1.0-bin-hadoop2.7\bin），而後以管理員的身份打開cmd，而後經過cd命令進入到Hadoop的bin目錄下，而後執行如下命令：

winutils.exe chmod 777 c:\tmp\Hive
八、啓動

九、使用Pycharm新建一個wordcount例程

from pyspark import SparkConf, SparkContext
# 建立SparkConf和SparkContext
conf = SparkConf().setMaster("local").setAppName("lichao-wordcount")
sc = SparkContext(conf=conf)
# 輸入的數據
data = ["hello", "world", "hello", "word", "count", "count", "hello"]
# 將Collection的data轉化爲spark中的rdd並進行操做
rdd = sc.parallelize(data)
resultRdd = rdd.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)
# rdd轉爲collecton並打印
resultColl = resultRdd.collect()
for line in resultColl:
    print(line)

搭建完成啦！

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。