Spark開發調優

時間 2020-12-25

原文原文鏈接

對多次使用的RDD進行持久化避免重複創建同樣的RDD 對於同一份數據，只應該創建一份RDD，不應創建多個RDD來代表同樣的數據儘可能複用同一個RDD 儘量避免使用shuffle類算子如果有可能的話，要儘量避免使用shuffle類算子。因爲Spark作業運行過程中，最消耗性能的地方就是shuffle過程。shuffle過程，簡單來說，就是將分佈在集羣中多個節點上的同一個key，拉取到同一個節點

>>阅读原文<<