【Spark亞太研究院系列叢書】Spark實戰高手之路-第3章Spark架構設計與編程模型第3節②

時間 2019-11-06

標籤 Spark亞太研究院系列叢書 spark 實戰高手之路架構設計編程模型欄目 Spark 简体版

原文原文鏈接

三，深刻RDDoop

RDD自己是一個抽象類，具備不少具體的實現子類：spa

RDD都會基於Partition進行計算：內存

默認的Partitioner以下所示：文檔

其中HashPartitioner的文檔說明以下：it

另一種經常使用的Partitioner是RangePartitioner：io

RDD在持久化的須要考慮內存策略：im

Spark提供不少StorageLevel可供選擇：margin

於此同時Spark提供了unpersistRDD:img

對RDD自己還有一個很是重要的CheckPoint操做：poi

其中doCheckpoint的細節以下：

以NewHadoopRDD爲例，其內部的信息以下所示：

以WholeTextFileRDD爲例，其內部的信息以下所示：

RDD在產生做業調用的時候，經典的過程以下所示：

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。