Spark---性能調優之重構RDD架構以及RDD持久化

1、當第一次對RDD2執行算子,獲取RDD3的時候,就會從RDD1開始計算,就是讀取HDFS文件,然後對RDD1執行算子,獲取 到RDD2,然後再計算,得到RDD3。 2、默認情況下,多次對一個RDD執行算子,去獲取不同的RDD;都會對這個RDD以及之前的父RDD,全部重新計算一次;讀取HDFS->RDD1->RDD2-RDD4 這種情況,是絕對絕對,一定要避免的,一旦出現一個RDD重複計算的情況
相關文章
相關標籤/搜索