groupByKey與reduceByKey區別

時間 2021-01-13

原文原文鏈接

用spark所寫的程序中shuffer操作非常耗時，所以會有專門針對這個shuffer的優化，來提高效率，但是有時你必須進行一些帶有shuffer的操作的算子，比如groupByKey和reduceByKey。這兩個都是針對於元祖（key，value）類型的數據進行重排與聚合操作。 groupByKey：它是將RDD中相同的key值得數據（value）合併成爲一序列，只能輸出相同key值得序列。

>>阅读原文<<