Spark---性能調優之重構RDD架構以及RDD持久化

時間 2020-12-25

原文原文鏈接

1、當第一次對RDD2執行算子，獲取RDD3的時候，就會從RDD1開始計算，就是讀取HDFS文件，然後對RDD1執行算子，獲取到RDD2，然後再計算，得到RDD3。 2、默認情況下，多次對一個RDD執行算子，去獲取不同的RDD；都會對這個RDD以及之前的父RDD，全部重新計算一次；讀取HDFS->RDD1->RDD2-RDD4 這種情況，是絕對絕對，一定要避免的，一旦出現一個RDD重複計算的情況

>>阅读原文<<