spark性能優化指南

時間 2019-12-06

標籤 spark 性能優化指南欄目 Spark 简体版

原文原文鏈接

原則六：使用高性能的算子除了shuffle相關的算子有優化原則以外，其餘的算子也都有着相應的優化原則。web 使用reduceByKey/aggregateByKey替代groupByKey數據庫詳情見「原則五：使用map-side預聚合的shuffle操做」。apache 使用mapPartitions替代普通map數組 mapPartitions類的算子，一次函數調用會處理一個partit

>>阅读原文<<