Spark性能調優:RDD的複用以及RDD持久化

避免建立重複的RDD 一般來講,開發一個Spark做業時,首先是基於某個數據源(好比Hive表或HDFS文件)建立一個初始的RDD;接着對這個RDD執行某個算子操做,而後獲得下一個RDD;以此類推,循環往復,直到計算出最終咱們須要的結果。在這個過程當中,多個RDD會經過不一樣的算子操做(好比map、reduce等)串起來,這個「RDD串」,就是RDD lineage,也就是「RDD的血緣關係鏈」。
相關文章
相關標籤/搜索