【Spark亞太研究院系列叢書】Spark實戰高手之路-第3章Spark架構設計與編程模型第3節：Spark架構設計(1)

時間 2019-11-13

標籤 Spark亞太研究院系列叢書 spark 實戰高手之路架構設計編程模型欄目 Spark 简体版

原文原文鏈接

1、以RDD爲基石的Spark編程模型編程

在Spark中一切都是基於RDD的：分佈式

什麼是RDD呢？官方給出的解釋是：函數

也就是說每一個RDD都至少有如下三個函數實現:spa

Spark自帶了很是多的RDD:orm

RDD主要分爲兩種：事件

其中的transformations是lazy execution的，須要具體的action去觸發，每一個action操做都是一個單獨的job；ip

接下來咱們看一個具體的RDD操做的例子：pip

RDD中有兩個比較特殊的RDD:io

這兩個RDD的特殊之處在於皆是控制性操做的RDD：form

二，RDD的依賴和運行時

在Spark中RDD是具有依賴關係的，而依賴分爲兩種：

「Narrow」依賴的一個好處就是能夠進行內部的pipeline操做：

運行的時候是以RDD爲統一抽象並行化運行：

更進一步的詳細RDD並行化計算過程以下所示：

正如全部的分佈式結構同樣，Spark分佈式集羣也是主從結構的：

Spark運行時組件以下所示：

Spark運行時候的事件流以下所示：

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。