spark性能優化指南

原則六:使用高性能的算子 除了shuffle相關的算子有優化原則以外,其餘的算子也都有着相應的優化原則。web 使用reduceByKey/aggregateByKey替代groupByKey數據庫 詳情見「原則五:使用map-side預聚合的shuffle操做」。apache 使用mapPartitions替代普通map數組 mapPartitions類的算子,一次函數調用會處理一個partit
相關文章
相關標籤/搜索