spark 使用aggregateByKey 代替groupbyKey

時間 2019-12-07

標籤 spark 使用 aggregatebykey 代替 groupbykey 欄目 Spark 简体版

原文原文鏈接

性能調優中有個方案，叫使用 aggregateBykey 代替 groupbykey，爲啥呢？應爲aggregateByKe，使用map-side預聚合的shuffle操做，至關於再map端進行了聚合的操做，至關於mapreduce 中進行combiner ide 介紹一下aggregateBykey這個方法這裏面一共傳了三個參數，這裏用到了柯里化，我分別作一下參數介

>>阅读原文<<