到官網(點這裏)下載對應的Anaconda安裝包。Anaconda有Python 2.7和Python 3.6版本的,我這裏下載的是Python 3.6版本,Anaconda集成了Python軟件,安裝好Anaconda以後就不須要另外安裝Python了。html
下載好的 .exe文件,直接點擊安裝。選擇對應的安裝目錄,其餘的都默認安裝便可。java
到官網(點這裏)下載對應的Pycharm安裝包。社區版是免費的。python
下載好 .exe安裝文件後選擇好安裝目錄直接默認安裝便可。shell
安裝好Pycharm後打開Pycharm。apache
點擊Configure -> Settingswindows
選擇 Add local -> Conda Environment, 若是出現Anaconda installation is not found,用管理員身份打開CMD, 輸入下面命令:oracle
mklink /D %HOMEPATH%\anaconda C:\ProgramData\Anaconda3(紅色爲對應的Anaconda安裝目錄,具體參照這裏)oop
選擇好Anaconda 環境後點OK, 會建立一個Anaconda環境,測試
至此,Anaconda + Pycharm安裝配置完成。spa
到官網(點這裏)下載安裝對應版本的JDK, 下載好安裝包選擇對應的安裝路徑安裝便可。
安裝好jdk以後配置環境變量,在桌面右擊【計算機】--【屬性】--【高級系統設置】,而後在系統屬性裏選擇【高級】--【環境變量】,而後在系統變量中找到「Path」變量,並選擇「編輯」按鈕後出來一個對話框,能夠在裏面添加上一步中所安裝的JDK目錄下的bin文件夾路徑名:
測試java安裝,新建一個CMD窗口,輸入 Java -version,出現下圖的java 版本信息即安裝成功
到Spark官網(點這裏)下載對應的Spark安裝包,注意選擇的Spark版本及其對應的Hadoop版本
這裏選的是Spark 2.2,Hadoop 2.7,點擊下載壓縮包。下載後獲得一個下面這樣的壓縮文件,用解壓軟件解壓:
重命名解壓出來的文件夾名爲Spark, 把文件夾複製到你想要的目錄,我複製到D盤根目錄下面。
將Spark的bin目錄添加到系統變量PATH裏面,打開命令行輸入 spark-shell,出現下面的說明Spark安裝成功了。
到官網(點這裏)下載對應的Hadoop版本,咱們以前Spark對應的Hadoop是2.7的,因此這裏選擇2.7.1版本下載。
下載好安裝包以後解壓安裝包,把文件夾名改爲hadoop,並和Spark同樣,將hadoop的bin目錄加到系統變量path裏面。
CMD窗口輸入spark-shell會報下面的錯誤,是由於Hadoop的bin目錄下沒有winutils.exe文件的緣由。
到GitHub下載對應Hadoop版本的winutils.exe文件,我選擇2.7.1版本的winutils.exe文件,下載好後放到Hadoop的bin目錄下。
輸入spark-shell會報下面python錯誤。
在系統變量path裏面也加入python,指向Anaconda的Python執行文件。
打開命令行,輸入pyspark
最後總結下環境變量。
1. 新加系統環境變量:
HADOOP_HOME D:\hadoop
SPARK_HOME D:\spark
2. 在系統環境變量path中加入下面變量:
打開cmd, 輸入spark-shell, 完美以下圖:
最後就能夠打開Pycharm, 導入pyspark模塊,開始玩轉python版Spark了