【Spark亞太研究院系列叢書】Spark實戰高手之路-第3章Spark架構設計與編程模型第2節②

三, Spark的RDDspa

在Spark中一切都是以RDD爲基礎和核心的:orm

 

每一個RDD的API以下所示:文檔

Spark官方文檔中給出了的衆多的RDD:it

RDD中的操做分爲transformations和actions兩種:io

下面舉一個例子來講明RDD的使用:form

另外有兩個特殊的RDD:基礎

他們都是controlling operations:transform

RDD在執行的時候都是並行的:並行

四, Spark的高容錯機制lineageim

基於DAG圖,lineage是輕量級而高效的:

操做之間相互具有lineage的關係,每一個操做只關心其父操做,各個分片的數據之間互不影響,出現錯誤的時候只要恢復單個Split的特定部分便可:

相關文章
相關標籤/搜索