【Spark亞太研究院系列叢書】Spark實戰高手之路-第3章Spark架構設計與編程模型第3節②

三,深刻RDDoop

RDD自己是一個抽象類,具備不少具體的實現子類:spa

RDD都會基於Partition進行計算:內存

 

默認的Partitioner以下所示:文檔

其中HashPartitioner的文檔說明以下:it

另一種經常使用的Partitioner是RangePartitioner:io

RDD在持久化的須要考慮內存策略:im

Spark提供不少StorageLevel可供選擇:margin

 

於此同時Spark提供了unpersistRDD:img

對RDD自己還有一個很是重要的CheckPoint操做:poi

其中doCheckpoint的細節以下:

NewHadoopRDD爲例,其內部的信息以下所示:

WholeTextFileRDD爲例,其內部的信息以下所示:

RDD在產生做業調用的時候,經典的過程以下所示:

相關文章
相關標籤/搜索