最近在學習大數據相關的知識,在本身的筆記本上搭建了spark環境,本文是記錄了此次搭建環境中的步驟,若有問題,歡迎指正。html
spark下載網站 http://spark.apache.org/downl...
在上述網站上找到 Download Spark: spark-x.x.x-bin-hadoopx.x.tgz 點擊便可下載最新版本的spark,也能夠選擇老的版本。python
hadoop鏡像網站 http://www.apache.org/dyn/clo...
在這個網站上選擇一個鏡像網站,例如 http://mirrors.hust.edu.cn/ap...
而後在對應的hadoop版本號下,選擇hadoop-x.x.x.tar.gz下載解壓,通常這個要與spark下載時文件名上的hadoop的版本一致。github
這個軟件是爲了是hadoop能夠兼容在windows下運行,在github上能夠找到不少。這是我下載用過的網址shell
- win32版本 https://github.com/andygoldsm...
- win64版本 https://github.com/stevelough...
版本好要和本身下載的hadoop版本的hadoop版本對應,下載解壓後到 bin/ 目錄下執行winutils.exe chmod -R 777 C:/tmp/hive 便可,盤符可換。apache
解壓上述下載的文件到對應目錄後,而後配置環境變量,下面的是個人配置 SCALA_HOME : C:\Program Files (x86)\scala2.11.7; JAVA_HOME : C:\Program Files\Java\jdk1.8.0_51 HADOOP_HOME : C:\Hadoop\winutils-master\hadoop-2.7.1 SPARK_HOME : C:\Hadoop\spark-2.2.0-bin-hadoop2.7 PATH : %JAVA_HOME%\bin;%SCALA_HOME%\bin;%HADOOP_HOME%\bin;%SPARK_HOME%\bin
在命令行下運行spark-shell,這樣就進入了scala語法的spark-shell。windows
須要將下載後的spark目錄下的./python/pyspark複製到python安裝目錄下的./Lib/site-packages目錄下,而後就能夠在python代碼中import pyspark了,固然也能夠在命令行下執行pyspark直接進入python版本的spark-shelloop