Spark性能調優

時間 2021-07-11

原文原文鏈接

爲什麼80%的碼農都做不了架構師？>>> 原則一：避免創建重複的RDD 通常來說，我們在開發一個Spark作業時，首先是基於某個數據源（比如Hive表或HDFS文件）創建一個初始的RDD；接着對這個RDD執行某個算子操作，然後得到下一個RDD；以此類推，循環往復，直到計算出最終我們需要的結果。在這個過程中，多個RDD會通過不同的算子操作（比如map、reduce等）串起來，這個「RDD串」，

>>阅读原文<<