詳解 jupyter notebook 集成 spark 環境安裝

時間 2019-11-09

標籤詳解 jupyter notebook 集成 spark 環境安裝欄目 Spark 简体版

原文原文鏈接

1 相關介紹java

jupyter notebook是一個Web應用程序，容許你建立和分享，包含活的代碼，方程的文件，可視化和解釋性文字。用途包括：數據的清洗和轉換、數值模擬、統計建模、機器學習和更多。支持40多中語言。python ，R，go，scala等。
    Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用並行框架，Spark，擁有Hadoop MapReduce所具備的優勢；但不一樣於MapReduce的是Job中間輸出結果能夠保存在內存中，從而再也不須要讀寫HDFS，所以Spark能更好地適用於數據挖掘與機器學習等須要迭代的MapReduce的算法。   
    Spark 是一種與 Hadoop 類似的開源集羣計算環境，可是二者之間還存在一些不一樣之處，這些有用的不一樣之處使 Spark 在某些工做負載方面表現得更加優越，換句話說，Spark 啓用了內存分佈數據集，除了可以提供交互式查詢外，它還能夠優化迭代工做負載。
    Spark 是在 Scala 語言中實現的，它將 Scala 用做其應用程序框架。與 Hadoop 不一樣，Spark 和 Scala 可以緊密集成，其中的 Scala 能夠像操做本地集合對象同樣輕鬆地操做分佈式數據集。
    儘管建立 Spark 是爲了支持分佈式數據集上的迭代做業，可是實際上它是對 Hadoop 的補充，能夠在 Hadoop 文件系統中並行運行。經過名爲 Mesos 的第三方集羣框架能夠支持此行爲。Spark 由加州大學伯克利分校 AMP 實驗室 (Algorithms, Machines, and People Lab) 開發，可用來構建大型的、低延遲的數據分析應用程序。
    大體瞭解後，就開始看看怎麼搭建這樣一個集成的環境吧。

2 安裝步驟python

安裝以前保證環境有java環境。輸入命令java -version和javac驗證git

2.1 安裝anacondagithub

anacnda帶有ipython和jupyter notebook

下載anacondo算法

下載完成後是一個.sh文件。執行bash Anaconda2-4.1.0-Linux-x86_64.sh進行安裝。默認的安裝路徑是/User/anaconda2/,固然也能夠修改安裝目錄。apache

安裝完成後添加相應的PATH路徑。json

jupyter kernelspec list
查看jupyter已經安裝的kernel有
vim

jupyter notebook --ip=125.65.45.180 --no-browser

開啓jupyter notebook服務，ip通常指定機器本身的ip。端口默認狀況下是8888或者8889，我這裏是8889。也能夠本身指定。
開啓後在browser輸入 http://testland.orientsoft.cn:8889/tree#
機器名稱換成本身指定的ip
會出現頁面
瀏覽器

說明jupyter notebook安裝完成

2.2 安裝scala kernel

scala下載地址

解壓
xz -d jupyter-scala_2.10.5-0.2.0-SNAPSHOT.tar.xz

tar xvf jupyter-scala_2.10.5-0.2.0-SNAPSHOT.tar

安裝

cd jupyter-scala_2.10.5-0.2.0-SNAPSHOT/bin
chmod u+x jupyter-scala
bash jupyter-scala

完成後會生成一個文件。這裏請注意。後面配置hi會用到

Generated /home/student/.ipython/kernels/scala210/kernel.json

驗證

jupyter kernelspec list

說明scala kernel安裝完成

2.3 安裝spark

spark下載地址

解壓

tar xvf spark-1.5.1-bin-hadoop2.6.tgz

加壓後須要設置一個環境變量

在你相應的/user/.bash_rc中添加

export SPARK_HOME="..../spark-1.5.1-bin-hadoop2.6:$PATH"

即添加你解壓spark後的目錄。

2.4 將spark(python版)環境加入python notebook。

在目錄$user/.ipython/profile_spark/startup下面新建notebook啓動文件00-first.py，文件內容以下：

import os
import sys
  
# Configure the environment
if 'SPARK_HOME' not in os.environ:
    os.environ['SPARK_HOME'] = '/home/student/wp/envi/spark-1.5.1-bin-hadoop2.6'
                          
 # Create a variable for our root path
SPARK_HOME = os.environ['SPARK_HOME']
                                 
# Add the PySpark/py4j to the Python Path
sys.path.insert(0, os.path.join(SPARK_HOME, "python", "build"))
sys.path.insert(0, os.path.join(SPARK_HOME, "python"))

能夠用此配置文件啓動notebook:

jupyter notebook --config=00-first.py --no-browser --ip=本身的ip。

這樣新建python文件就可使用spark環境了。

如下主要是安裝scala版本的notebook spark

2.5 安裝sbt（simple build tools）

下載sbt，

由於wget後的文件名稱過長，因此個人命令是：

wget -O sbt-0.13.11.tgz -b https://dl.bintray.com/sbt/native-packages/sbt/0.13.11/sbt-0.13.11.tgz

下載完成後，配置相關PATH路徑，命令sbt sbt-version驗證。執行這個命令後，，就耐心等待吧，好久好久。。。。。。。由於要下載不少jar包。

出現

說明sbt安裝完成

2.6 下載incubator（編譯spark kernel）

git clone https://github.com/apache/incubator-toree.git

2.7 編譯spark kernel

注意使用incubator編譯spark kernel以前，請確保sbt正確安裝。

cd 到你解壓後的incubator-toree目錄。裏面有Makefile文件

執行
make build
進行編譯（耐心等待吧，好久好久。最好去睡個午覺。。。。。。）
等到出現這個：

說明編譯成功
接下來： make dist
cd dis/toree/bin
記住這個run.sh路徑

cd到你的User/.ipython/kernels。若是這個目錄下面沒有spark，新建spark目錄，而後在spark目錄下面新建文件vim kernel.json
kernel.json內容爲

{
"display_name": "Spark 1.5.1 (Scala 2.10.4)",
"lauguage_info": {"name": "scala"},
"argv": [
    //這裏改爲你本身的目錄，就是上面的run.sh 的路徑
    "/Users/zhangsan/anaconda3/incubator-toree/dist/toree/bin/run.sh",
    "--profile",
    "{connection_file}"
],
"codemirror_mode": "scala",
"env": {
    "SPARK_OPTS": "--master=local[2] --driver-java-options=-Xms1024M --driver-java-options=-Xms4096M --driver-java-options=-Dlog4j.logLevel=info",
    "MAX_INTERPRETER_THREADS": "16",
    "CAPTURE_STANDARD_OUT": "true",
    "CAPTURE_STANDARD_ERR": "true",
    "SEND_EMPTY_OUTPUT": "false",
    //這裏改爲你本身的目錄
    "SPARK_HOME": "/Users/zhangsan/Documents/spark-1.5.1-bin-hadoop2.6",
    //這裏改爲你本身的目錄
    "PYTHONPATH": "/Users/zhangsan/Documents/spark-1.5.1-bin-hadoop2.6/python:/Users/zhangsan/Documents/spark-1.5.1-bin-hadoop2.6/python/lib/py4j-0.8.2.1-src.zip"
}
}

注意上面有3處須要改爲你本身的目錄值。。

此時執行jupyter kernelspec list；

2.8開啓notebook服務

瀏覽器中：

到此基本完成所有安裝

來自：
代碼大溼
 代碼大溼