groupByKey與reduceByKey區別

用spark所寫的程序中shuffer操作非常耗時,所以會有專門針對這個shuffer的優化,來提高效率,但是有時你必須進行一些帶有shuffer的操作的算子,比如groupByKey和reduceByKey。這兩個都是針對於元祖(key,value)類型的數據進行重排與聚合操作。 groupByKey:它是將RDD中相同的key值得數據(value)合併成爲一序列,只能輸出相同key值得序列。
相關文章
相關標籤/搜索