Spark性能調優(三)---在實際項目中重構RDD架構以及RDD持久化

一、爲什麼要重構RDD,持久化RDD ①爲什麼需要重構RDD 如上圖所示, RDD2和RDD3是RDD1執行相同的算子得到的RDD,是相同的RDD。對於這種需要被重複使用,差不多的RDD,可以抽取爲一個共同的RDD,供後面的RDD計算時,重複使用。 ②爲什麼持久化RDD 如上圖所示,如果沒有持久化RDD,那麼在獲取RDD3和RDD4的時候,都需要從HDFS讀取文件,轉換成RDD1,然後轉換成RDD
相關文章
相關標籤/搜索