Spark 開發調優(一)

Spark性能優化 - 開發調優 優化一 避免建立重複的RDD 一般來講,咱們在開發一個Spark做業時,首先是基於某個數據源(好比Hive表或HDFS文件)建立一個初始的RDD;接着對這個RDD執行某個算子操做,而後獲得下一個RDD;以此類推,循環往復,直到計算出最終咱們須要的結果。在這個過程當中,多個RDD會經過不一樣的算子操做(好比map、reduce等)串起來,這個「RDD串」,就是RDD
相關文章
相關標籤/搜索