spark 使用aggregateByKey 代替groupbyKey

性能調優中有個方案, 叫使用 aggregateBykey 代替 groupbykey, 爲啥呢? 應爲aggregateByKe,使用map-side預聚合的shuffle操做, 至關於再map端進行了聚合的操做,至關於mapreduce 中進行combiner     ide   介紹一下aggregateBykey這個方法 這裏面一共傳了三個 參數,這裏用到了柯里化 ,  我分別作一下參數介
相關文章
相關標籤/搜索