Win10下安裝單點Spark、Hadoop、Python環境

1. Anaconda環境的安裝。

到官網(點這裏)下載對應的Anaconda安裝包。Anaconda有Python 2.7和Python 3.6版本的,我這裏下載的是Python 3.6版本,Anaconda集成了Python軟件,安裝好Anaconda以後就不須要另外安裝Python了。html

下載好的 .exe文件,直接點擊安裝。選擇對應的安裝目錄,其餘的都默認安裝便可。java

       

2. Pycharm的安裝。

到官網(點這裏)下載對應的Pycharm安裝包。社區版是免費的。python

下載好 .exe安裝文件後選擇好安裝目錄直接默認安裝便可。shell

3. 配置Pycharm + Anaconda開發環境

安裝好Pycharm後打開Pycharm。apache

點擊Configure -> Settingswindows

選擇 Add local -> Conda Environment, 若是出現Anaconda installation is not found,用管理員身份打開CMD, 輸入下面命令:oracle

mklink /D %HOMEPATH%\anaconda C:\ProgramData\Anaconda3(紅色爲對應的Anaconda安裝目錄,具體參照這裏oop

選擇好Anaconda 環境後點OK, 會建立一個Anaconda環境,測試

至此,Anaconda + Pycharm安裝配置完成。spa

4. JDK 的安裝

到官網(點這裏)下載安裝對應版本的JDK, 下載好安裝包選擇對應的安裝路徑安裝便可。

安裝好jdk以後配置環境變量,在桌面右擊【計算機】--【屬性】--【高級系統設置】,而後在系統屬性裏選擇【高級】--【環境變量】,而後在系統變量中找到「Path」變量,並選擇「編輯」按鈕後出來一個對話框,能夠在裏面添加上一步中所安裝的JDK目錄下的bin文件夾路徑名:

測試java安裝,新建一個CMD窗口,輸入 Java -version,出現下圖的java 版本信息即安裝成功

5. 安裝Spark

到Spark官網(點這裏)下載對應的Spark安裝包,注意選擇的Spark版本及其對應的Hadoop版本

這裏選的是Spark 2.2,Hadoop 2.7,點擊下載壓縮包。下載後獲得一個下面這樣的壓縮文件,用解壓軟件解壓:

重命名解壓出來的文件夾名爲Spark, 把文件夾複製到你想要的目錄,我複製到D盤根目錄下面。

將Spark的bin目錄添加到系統變量PATH裏面,打開命令行輸入 spark-shell,出現下面的說明Spark安裝成功了。

6. Hadoop 安裝

到官網(點這裏)下載對應的Hadoop版本,咱們以前Spark對應的Hadoop是2.7的,因此這裏選擇2.7.1版本下載。

下載好安裝包以後解壓安裝包,把文件夾名改爲hadoop,並和Spark同樣,將hadoop的bin目錄加到系統變量path裏面。

 

7. 配置Spark環境

CMD窗口輸入spark-shell會報下面的錯誤,是由於Hadoop的bin目錄下沒有winutils.exe文件的緣由。

到GitHub下載對應Hadoop版本的winutils.exe文件,我選擇2.7.1版本的winutils.exe文件,下載好後放到Hadoop的bin目錄下。

輸入spark-shell會報下面python錯誤。

在系統變量path裏面也加入python,指向Anaconda的Python執行文件。

打開命令行,輸入pyspark

最後總結下環境變量。

1. 新加系統環境變量:

HADOOP_HOME        D:\hadoop

SPARK_HOME            D:\spark

2. 在系統環境變量path中加入下面變量:

打開cmd, 輸入spark-shell, 完美以下圖:

 

最後就能夠打開Pycharm, 導入pyspark模塊,開始玩轉python版Spark了

測試:

 

相關文章
相關標籤/搜索