win7下配置spark

時間 2019-11-08

標籤 win7 win 配置 spark 欄目 Windows 简体版

原文原文鏈接

1.安裝jdk(配置JAVA_HOME,CLASSPATH,path)git

2.安裝scala(配置SCALA_HOME,path)github

3.安裝sparkshell

Spark的安裝很是簡單，直接去Download Apache Spark。有兩個步驟：
● 選擇好對應Hadoop版本的Spark版本，以下圖中所示；apache

● 而後點擊下圖中箭頭所指的spark-1.6.2-bin-hadoop2.6.tgz，等待下載結束便可。oop

這裏使用的是Pre-built的版本，意思就是已經編譯了好了，下載來直接用就好，Spark也有源碼能夠下載，可是得本身去手動編譯以後才能使用。下載完成後將文件進行解壓（可能須要解壓兩次），最好解壓到一個盤的根目錄下，並重命名爲Spark，簡單不易出錯。而且須要注意的是，在Spark的文件目錄路徑名中，不要出現空格，相似於「Program Files」這樣的文件夾名是不被容許的。
解壓後基本上就差很少能夠到cmd命令行下運行了。但這個時候每次運行spark-shell（spark的命令行交互窗口）的時候，都須要先cd到Spark的安裝目錄下，比較麻煩，所以能夠將Spark的bin目錄添加到系統變量PATH中。例如我這裏的Spark的bin目錄路徑爲D:\Spark\bin，那麼就把這個路徑名添加到系統變量的PATH中便可，方法和JDK安裝過程當中的環境變量設置一致，設置完系統變量後，在任意目錄下的cmd命令行中，直接執行spark-shell命令，便可開啓Spark的交互式命令行模式。ui

4.安裝hadoopspa

系統變量設置後，就能夠在任意當前目錄下的cmd中運行spark-shell，但這個時候頗有可能會碰到各類錯誤，這裏主要是由於Spark是基於Hadoop的，因此這裏也有必要配置一個Hadoop的運行環境。在 Hadoop Releases裏能夠看到Hadoop的各個歷史版本，這裏因爲下載的Spark是基於Hadoop 2.6的（在Spark安裝的第一個步驟中，咱們選擇的是Pre-built for Hadoop 2.6），我這裏選擇2.6.4版本，選擇好相應版本並點擊後，進入詳細的下載頁面，以下圖所示，選擇圖中紅色標記進行下載，這裏上面的src版本就是源碼，須要對Hadoop進行更改或者想本身進行編譯的能夠下載對應src文件，我這裏下載的就是已經編譯好的版本，即圖中的hadoop-2.6.4.tar.gz文件。

　下載並解壓到指定目錄，而後到環境變量部分設置HADOOP_HOME爲Hadoop的解壓目錄，我這裏是F:\Program Files\hadoop，而後再設置該目錄下的bin目錄到系統變量的PATH下，我這裏也就是F:\Program Files\hadoop\bin，若是已經添加了HADOOP_HOME系統變量，也能夠用%HADOOP_HOME%\bin來指定bin文件夾路徑名。這兩個系統變量設置好後，開啓一個新的cmd，而後直接輸入spark-shell命令。

正常狀況下是能夠運行成功並進入到Spark的命令行環境下的，可是對於有些用戶可能會遇到空指針的錯誤。這個時候，主要是由於Hadoop的bin目錄下沒有winutils.exe文件的緣由形成的。這裏的解決辦法是：

去 https://github.com/steveloughran/winutils 選擇你安裝的Hadoop版本號，而後進入到bin目錄下，找到winutils.exe文件，下載方法是點擊winutils.exe文件，進入以後在頁面的右上方部分有一個Download按鈕，點擊下載便可。
下載好winutils.exe後，將這個文件放入到Hadoop的bin目錄下，我這裏是F:\Program Files\hadoop\bin。

5.運行spark-shell.cmd

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。