Spark優化(五):使用map-side預聚合的shuffle操作

使用map-side預聚合的shuffle操作 如果因爲業務需要,一定要使用shuffle操作,無法用map類的算子來替代,那麼儘量使用可以map-side預聚合的算子。 所謂的map-side預聚合,說的是在每個節點本地對相同的key進行一次聚合操作,類似於MapReduce中的本地combiner。   map-side預聚合之後,每個節點本地就只會有一條相同的key,因爲多條相同的key都被
相關文章
相關標籤/搜索