win10安裝java+hadoop+spark


前言

操做系統win10
安裝時間2018年12月
java版本jdk1.8.0_191
hadoop版本hadoop-2.8.5
spark版本spark-2.3.1-bin-hadoop2.7java

Java安裝

方法一

下載

JDK 8 網址,以下圖所示:
JDK 8python

這時有兩種JDK能夠選擇,以下兩圖,選其中一種便可:(疑問,這兩種有什麼區別?)
Java SE Development Kit 8u191
Java SE Development Kit 8u192git

配置環境變量

選擇兩種JDK其中一種下載好,開始安裝,,完成以後,環境變量配置:github

操做 變量名 變量值
新建 JAVA_HOME 安裝路徑jdk
新建 CLASSPATH .;安裝路徑jdk\bin;安裝路徑jdk\lib\dt.jar;安裝路徑jdk\lib\tools.jar;
增長 PATH 安裝路徑jdk\bin;安裝路徑jdk\jre\bin;

方法二

下載

JDK 11 網址,以下圖所示:
JDK 11shell

選擇對應的exe文件進行下載:
Java SE Development Kit 11.0.1express

配置環境變量

開始安裝,完成以後,環境變量配置:apache

操做 變量名 變量值
新建 JAVA_HOME 安裝路徑
新建 CLASSPATH 安裝路徑\lib
增長 PATH 安裝路徑\lib

測試

C:\Users\yun>java -version
java version "11.0.1" 2018-10-16 LTS
Java(TM) SE Runtime Environment 18.9 (build 11.0.1+13-LTS)
Java HotSpot(TM) 64-Bit Server VM 18.9 (build 11.0.1+13-LTS, mixed mode)
C:\Users\yun>javac -version
javac 11.0.1

hadoop安裝

下載

最新幾個版本的hadoop 網址,以下圖所示:
Download Hadoopbash

選擇'Source download'或或者'Binary download'進入以下頁面,下載文件:
Download Hadoop-3.0.3.tar.gzsession

配置環境變量

解壓文件,環境變量配置:

操做 變量名 變量值
新建 HADOOP_HOME 解壓路徑
增長 PATH 解壓路徑\bin

Scala安裝

下載

Scala 官網
Scala 官網
Download Scala
瀏覽到網址最下面(選msi文件安裝更省事哦):
Other resources

配置環境變量

開始安裝,完成以後,環境變量配置(使用msi文件安裝默認會配置好,若是沒有配置,以下表配置):

操做 變量名 變量值
增長 PATH 安裝路徑\bin

測試

C:\Users\yun>scala -version
Scala code runner version 2.12.8 -- Copyright 2002-2018, LAMP/EPFL and Lightbend, Inc.

Spark安裝

方法一

下載

Apache Spark™ 官網
Apache Spark™ 官網
按照網址提示步驟,'Choose a Spark release'-->'Choose a package type'-->'Download Spark':
Download Spark 步驟1
Download Spark 步驟2

複製文件

配置環境變量

  • 解壓文件
  • 把'解壓路徑\python\pyspark'文件夾複製到'python安裝路徑\Lib\site-packages'文件夾裏面
  • 環境變量配置:
操做 變量名 變量值
新建 SPARK_HOME 解壓路徑
增長 PATH 解壓路徑\bin

測試

(退出spark-shell時提示「ERROR ShutdownHookManager:91 - Exception while deleting Spark temp dir:.....(省略)」,未解決)

C:\Users\yun>spark-shell
......(省略)
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://10.135.110.114:4040
Spark context available as 'sc' (master = local[*], app id = local-1544323487923).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.4.0
      /_/

Using Scala version 2.11.12 (Java HotSpot(TM) 64-Bit Server VM, Java 11.0.1)
Type in expressions to have them evaluated.
Type :help for more information.

scala>

方法二

(疑問:選擇這種方法能夠不須要安裝Scala?)

下載

pip install pyspark

測試

C:\Users\yun>pyspark
Python 3.7.0 (default, Jun 28 2018, 08:04:48) [MSC v.1912 64 bit (AMD64)] :: Anaconda, Inc. on win32
Type "help", "copyright", "credits" or "license" for more information.
......(省略)
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.4.0
      /_/

Using Python version 3.7.0 (default, Jun 28 2018 08:04:48)
SparkSession available as 'spark'.
>>>

兩種方法的區別

方法一:

'spark-shell'命令和'pyspark'命令位於'spark解壓路徑\lib'中
把'解壓路徑\python\pyspark'文件夾複製到'python安裝路徑\Lib\site-packages'文件夾裏面

方法二:

'spark-shell'命令和'pyspark'命令位於'python安裝路徑\Scripts'中
執行的文件'是pip install pyspark'命令時安裝在'python安裝路徑\Lib\site-packages'中的包

說明:

疑問:環境變量是按照順序來執行的嗎?
若是是,那就沒什麼問題了,哈哈

安裝完Hadoop以後運行spark相關命令('spark-shell'命令和'pyspark'命令)時出現‘Could not locate executable null\bin\winutils.exe in the Hadoop binaries.’
從github下載winutils,而後把對應版本的hadoop目錄下的bin文件夾中的winutils.exe作複製就不會報這個錯誤了哦

疑問:'spark-shell'命令能夠根據輸出信息中的'Spark context Web UI available at...'一行進入網址查看spark的UI界面,pip安裝的'pyspark'命令如何查看spark的UI界面呢?
已解決:'pyspark'命令進入默認網址'localhost:4040'或者‘127.0.0.1:4040'能夠查看spark的UI界面哇waha

配置pyspark啓動時自動啓動jupyter notebook(建議在用戶變量中操做):

操做 變量名 變量值
新建 PYSPARK_DRIVER_PYTHON jupyter
新建 PYSPARK_DRIVER_PYTHON_OPTS notebook
相關文章
相關標籤/搜索