spark性能調優之重構RDD架構,RDD持久化

當第一次對RDD2執行算子,獲取RDD3的時候,就會從RDD1開始計算,就是讀取HDFS文件,而後對RDD1執行算子,獲取到RDD2,而後再計算,獲得RDD3 數組 默認狀況下,屢次對一個RDD執行算子,去獲取不一樣的RDD;都會對這個RDD以及以前的父RDD,所有從新計算一次;讀取HDFS->RDD1->RDD2-RDD4 這種狀況,是絕對絕對,必定要避免的,一旦出現一個RDD重複計算的狀況,就
相關文章
相關標籤/搜索