三,深刻RDDoop
RDD自己是一個抽象類,具備不少具體的實現子類:spa
RDD都會基於Partition進行計算:內存
默認的Partitioner以下所示:文檔
其中HashPartitioner的文檔說明以下:it
另一種經常使用的Partitioner是RangePartitioner:io
RDD在持久化的須要考慮內存策略:im
Spark提供不少StorageLevel可供選擇:margin
於此同時Spark提供了unpersistRDD:img
對RDD自己還有一個很是重要的CheckPoint操做:poi
其中doCheckpoint的細節以下:
以NewHadoopRDD爲例,其內部的信息以下所示:
以WholeTextFileRDD爲例,其內部的信息以下所示:
RDD在產生做業調用的時候,經典的過程以下所示: