Spark性能調優：RDD的複用以及RDD持久化

時間 2020-05-08

標籤 spark 性能 rdd 以及持久欄目 Spark 简体版

原文原文鏈接

避免建立重複的RDD 一般來講，開發一個Spark做業時，首先是基於某個數據源（好比Hive表或HDFS文件）建立一個初始的RDD；接着對這個RDD執行某個算子操做，而後獲得下一個RDD；以此類推，循環往復，直到計算出最終咱們須要的結果。在這個過程當中，多個RDD會經過不一樣的算子操做（好比map、reduce等）串起來，這個「RDD串」，就是RDD lineage，也就是「RDD的血緣關係鏈」。

>>阅读原文<<