Spark開發調優

對多次使用的RDD進行持久化 避免重複創建同樣的RDD 對於同一份數據,只應該創建一份RDD,不應創建多個RDD來代表同樣的數據 儘可能複用同一個RDD 儘量避免使用shuffle類算子 如果有可能的話,要儘量避免使用shuffle類算子。因爲Spark作業運行過程中,最消耗性能的地方就是shuffle過程。shuffle過程,簡單來說,就是將分佈在集羣中多個節點上的同一個key,拉取到同一個節點
相關文章
相關標籤/搜索