Win10下安裝單點Spark、Hadoop、Python環境

時間 2020-01-04

標籤 win10 win 安裝單點 spark hadoop python 環境欄目 Windows 简体版

原文原文鏈接

1. Anaconda環境的安裝。

到官網(點這裏)下載對應的Anaconda安裝包。Anaconda有Python 2.7和Python 3.6版本的，我這裏下載的是Python 3.6版本，Anaconda集成了Python軟件，安裝好Anaconda以後就不須要另外安裝Python了。html

下載好的 .exe文件，直接點擊安裝。選擇對應的安裝目錄，其餘的都默認安裝便可。java

2. Pycharm的安裝。

到官網(點這裏)下載對應的Pycharm安裝包。社區版是免費的。python

下載好 .exe安裝文件後選擇好安裝目錄直接默認安裝便可。shell

3. 配置Pycharm + Anaconda開發環境

安裝好Pycharm後打開Pycharm。apache

點擊Configure -> Settingswindows

選擇 Add local -> Conda Environment，若是出現Anaconda installation is not found，用管理員身份打開CMD, 輸入下面命令：oracle

mklink /D %HOMEPATH%\anaconda C:\ProgramData\Anaconda3（紅色爲對應的Anaconda安裝目錄，具體參照這裏）oop

選擇好Anaconda 環境後點OK, 會建立一個Anaconda環境，測試

至此，Anaconda + Pycharm安裝配置完成。spa

4. JDK 的安裝

到官網(點這裏)下載安裝對應版本的JDK，下載好安裝包選擇對應的安裝路徑安裝便可。

安裝好jdk以後配置環境變量，在桌面右擊【計算機】－－【屬性】－－【高級系統設置】，而後在系統屬性裏選擇【高級】－－【環境變量】，而後在系統變量中找到「Path」變量，並選擇「編輯」按鈕後出來一個對話框，能夠在裏面添加上一步中所安裝的JDK目錄下的bin文件夾路徑名：

測試java安裝，新建一個CMD窗口，輸入 Java -version，出現下圖的java 版本信息即安裝成功

5. 安裝Spark

到Spark官網(點這裏)下載對應的Spark安裝包，注意選擇的Spark版本及其對應的Hadoop版本

這裏選的是Spark 2.2，Hadoop 2.7，點擊下載壓縮包。下載後獲得一個下面這樣的壓縮文件，用解壓軟件解壓：

重命名解壓出來的文件夾名爲Spark, 把文件夾複製到你想要的目錄，我複製到D盤根目錄下面。

將Spark的bin目錄添加到系統變量PATH裏面，打開命令行輸入 spark-shell，出現下面的說明Spark安裝成功了。

6. Hadoop 安裝

到官網(點這裏)下載對應的Hadoop版本，咱們以前Spark對應的Hadoop是2.7的，因此這裏選擇2.7.1版本下載。

下載好安裝包以後解壓安裝包，把文件夾名改爲hadoop，並和Spark同樣，將hadoop的bin目錄加到系統變量path裏面。

7. 配置Spark環境

CMD窗口輸入spark-shell會報下面的錯誤，是由於Hadoop的bin目錄下沒有winutils.exe文件的緣由。

到GitHub下載對應Hadoop版本的winutils.exe文件，我選擇2.7.1版本的winutils.exe文件，下載好後放到Hadoop的bin目錄下。

輸入spark-shell會報下面python錯誤。

在系統變量path裏面也加入python，指向Anaconda的Python執行文件。

打開命令行，輸入pyspark

最後總結下環境變量。

1. 新加系統環境變量：

HADOOP_HOME D:\hadoop

SPARK_HOME D:\spark

2. 在系統環境變量path中加入下面變量：

打開cmd, 輸入spark-shell, 完美以下圖：

最後就能夠打開Pycharm, 導入pyspark模塊，開始玩轉python版Spark了

測試：

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。