Spark性能調優-----算子調優(三)filter與coalesce的配合使用

在Spark任務中我們經常會使用filter算子完成RDD中數據的過濾,在任務初始階段,從各個分區中加載到的數據量是相近的,但是一旦進過filter過濾後,每個分區的數據量有可能會存在較大差異,如圖2-6所示: 根據圖2-6我們可以發現兩個問題: 每個partition的數據量變小了,如果還按照之前與partition相等的task個數去處理當前數據,有點浪費task的計算資源; 每個partit
相關文章
相關標籤/搜索