參考了https://blog.csdn.net/m0_37937917/article/details/81159193html
預裝環境:java
一、安裝了Anaconda ,能夠從清華鏡像下載。python
二、環境安裝了java,版本要7以及更高版本git
在前面的環境前提下github
開始下載安裝pyspark
下載 Apache Spark ,訪問 Apache Spark 官網下載shell
一、 選擇一個 Spark 版本 (Choose a Spark release)apache
二、選擇軟件包類型 (Choose a package type)windows
三、點擊下載oop
四、選擇一個開始下載,只是鏡像位置不同而已,內容無差spa
通常選擇最新版本就行,也就是默認選擇版本
ps:這邊有個我直接下載好的,須要能夠直接點擊連接下載
五、將你下載獲得的 spark-2.4.3-bin-hadoop2.7.tgz 解壓,獲得 spark-2.4.3-bin-hadoop2.7
我這邊下載下來的文件名是這樣的,根據實際爲準。
將解壓下來的 spark-2.4.3-bin-hadoop2.7 文件夾放到你想放的位置,我這邊是 E:\MyDownloads\pyspark
6 . 從連接下載 winutils.exe 並放到你電腦中的 spark-2.4.3-bin-hadoop2.7\bin 文件夾下。
winutils.exe 是用來在windows環境下模擬文件操做的。
七、修改環境變量
添加如下變量到你的環境變量:
變量名 變量值
-
SPARK_HOME spark-2.4.3-bin-hadoop2.7
HADOOP_HOME spark-2.4.3-bin-hadoop2.7
PYSPARK_DRIVER_PYTHON jupyter
PYSPARK_DRIVER_PYTHON_OPTS notebook
-
- 添加 ;E:\MyDownloads\pyspark\spark-2.4.3-bin-hadoop2.7\bin 到 PATH ps:這裏的路徑以你的實際爲準
此時安裝已經基本完成了
8 、打開 cmd,輸入命令行 spark-shell ,看到以下字樣,說明安裝成功
pyspark 案例實驗一下
打開cmd ,輸入 jupyter notebook 啓動
新建個python文件,而後
輸入如下代碼,點運行
代碼:
import os import sys spark_name = os.environ.get('SPARK_HOME',None) if not spark_name: raise ValueErrorError('spark環境沒有配置好')
接着輸入如下代碼,點運行
sys.path.insert(0,os.path.join(spark_name,'python')) sys.path.insert(0,os.path.join(spark_name,'python/lib/py4j-0.10.7-src.zip')) exec(open(os.path.join(spark_name,'python/pyspark/shell.py')).read())
這樣說明pyspark引入成功了!
報錯處理:
若是出現 沒法加載 pyspark ,提示錯誤:No module named 'pyspark' 。
緣由是: Anaconda 的環境變量中沒有加入 pyspark 。
解決方案:將目錄 spark-2.4.3-bin-hadoop2.7\python 中 spark 文件夾複製放入目錄 Anaconda3\Lib\site-packages 中。(你安裝Anaconda的地方)
建立RDD實例試驗
myRDD = sc.parallelize(range(6), 3) print(myRDD.collect()) print(myRDD.count())
自此,安裝pyspark 成功結束,歡迎指教,歡迎交流討論
原文出處:https://www.cnblogs.com/Alear/p/11413091.html