1、組件版本說明html
Java JDK:1.8.0_144python
spark-2.4.3-bin-hadoop2.7
hadoop-2.7.7apache
scala-2.12.8windows
hadooponwindows-masteroop
Python3.7spa
注意事項:命令行
Spark運行在Java 8 +,Python 2.7 + / 3.4 +和R 3.1+上。對於Scala API,Spark 2.4.3使用Scala 2.12。您須要使用兼容的Scala版本(2.12.x)scala
一、JDK安裝3d
下載安裝後配置環境變量:code
配置環境變量的方法爲電腦[右鍵]——>屬性——>環境變量,編輯環境變量方法見下圖
配置完成後:開啓cmd窗口
二、配置Scala
下載地址:
https://www.scala-lang.org/download/2.12.8.html
安裝完成後,配置環境變量
三、安裝Spark
下載地址:
http://spark.apache.org/downloads.html
解壓後配置環境變量:
四、安裝hadoop
下載地址:
http://hadoop.apache.org/releases.html
解壓後配置環境變量:
五、安裝Python3.7
六、把hadooponwindows-master的bin覆蓋hadoop-2.7.7的bin
七、處理Python相關
1,將spark所在目錄下(好比個人D:\IT\bigdata\soft\spark-2.4.3-bin-hadoop2.7\python)的pyspark文件夾拷貝到python文件夾下(個人是D:\IT\python\Python\Lib\site-packages)
2,安裝py4j庫
通常的在cmd命令行下 pip install py4j 就能夠。如果沒有將pip路徑添加到path中,就將路徑切換到python的Scripts中,而後再 pip install py4j 來安裝庫。
3 修改權限
將winutils.exe文件放到Hadoop的bin目錄下(個人是E:\spark\spark-2.1.0-bin-hadoop2.7\bin),而後以管理員的身份打開cmd,而後經過cd命令進入到Hadoop的bin目錄下,而後執行如下命令:
winutils.exe chmod 777 c:\tmp\Hive
八、啓動
九、使用Pycharm新建一個wordcount例程
from pyspark import SparkConf, SparkContext # 建立SparkConf和SparkContext conf = SparkConf().setMaster("local").setAppName("lichao-wordcount") sc = SparkContext(conf=conf) # 輸入的數據 data = ["hello", "world", "hello", "word", "count", "count", "hello"] # 將Collection的data轉化爲spark中的rdd並進行操做 rdd = sc.parallelize(data) resultRdd = rdd.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b) # rdd轉爲collecton並打印 resultColl = resultRdd.collect() for line in resultColl: print(line)
搭建完成啦!