[Spark] Hello Spark

時間 2019-12-11

標籤 spark hello 欄目 Spark 简体版

原文原文鏈接

這裏只使用Spark的Python操做和接口，其餘語言應爲不熟悉，因此先不寫在這裏。python

Spark 部署

能夠直接從官方網站下載 pre-build 版本，能夠直接在電腦上運行，離線安裝也是能夠的，好比說針對Python 2.7的link。shell

解壓：apache

tar zxvf spark-2.1.0-bin-hadoop2.7.tgz

解壓以後，其目錄爲以下：小程序

$ ls
LICENSE     README.md   conf        jars        sbin
NOTICE      RELEASE     data        licenses    yarn
R       bin     examples    python

其中的幾個目錄能夠先認識一下：bash

在Spark的目錄下，執行：分佈式

./bin/pyspark

便可載入Python Shell，成功以後的界面以下：函數

到這就表明Spark完成了部署，可使用 Control + D 退出 SparkShell。oop

在解釋器中執行下面的一段程序試試：學習

>>> lines = sc.textFile("README.md")
>>> pythonLines = lines.filter(lambda line: "Python" in line)

上面兩行代碼分別爲：網站

下面解釋 RDD 和 SparkContext 這兩個名詞：

SparkContext : 從上層來看，每一個Spark應用都有一個驅動程序來發起集羣上的各類並行操做。驅動程序包含應用的main函數，而且定義了集羣上的分佈式數據集，還對這些分佈式數據集應用了相關操做。在這個例子中，實際的驅動程序就是SparkShell自己，你只須要輸入想要運行的操做就能夠了。shell啓動的時候已經自動建立了一個SparkContext對象，名字爲sc。
RDD : 在Spark中，咱們經過對分佈式數據集的操做來表達咱們的計算意圖，這樣的數據集被稱爲彈性分佈式數據集(Resilient Distributed Dataset)，簡稱RDD。

而後能夠用執行 .first() 和 .count() 兩個方法來查看：

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。