【Spark亞太研究院系列叢書】Spark實戰高手之路-第3章Spark架構設計與編程模型第2節:Spark架構設計(2)

三, Spark的RDDspa

 在Spark中一切都是以RDD爲基礎和核心的:orm

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

每一個RDD的API以下所示:文檔

Spark官方文檔中給出了的衆多的RDD:it

 

RDD中的操做分爲transformations和actions兩種:io

下面舉一個例子來講明RDD的使用:form

另外有兩個特殊的RDD:class

他們都是controlling operations:基礎

RDD在執行的時候都是並行的:transform

四, Spark的高容錯機制lineage並行

 

基於DAG圖,lineage是輕量級而高效的:

操做之間相互具有lineage的關係,每一個操做只關心其父操做,各個分片的數據之間互不影響,出現錯誤的時候只要恢復單個Split的特定部分便可:

 

相關文章
相關標籤/搜索