【Spark亞太研究院系列叢書】Spark實戰高手之路-第3章Spark架構設計與編程模型第3節:Spark架構設計(2)

三,深刻RDDoop

 

RDD自己是一個抽象類,具備不少具體的實現子類:spa

 

RDD都會基於Partition進行計算:內存

 

默認的Partitioner以下所示:文檔

其中HashPartitioner的文檔說明以下:it

另一種經常使用的Partitioner是RangePartitioner:io

RDD在持久化的須要考慮內存策略:class

Spark提供不少StorageLevel可供選擇:im

於此同時Spark提供了unpersistRDD:margin

對RDD自己還有一個很是重要的CheckPoint操做:top

其中doCheckpoint的細節以下:

NewHadoopRDD爲例,其內部的信息以下所示:

WholeTextFileRDD爲例,其內部的信息以下所示:

RDD在產生做業調用的時候,經典的過程以下所示:

相關文章
相關標籤/搜索