RDD 中的 reducebyKey 與 groupByKey 哪個性能高?

groupByKey val counts = pairs.groupByKey().map(wordCounts => (wordCounts._1, wordCounts._2.sum)) groupByKey的性能,相對來說,是有問題的 因爲,它是不會進行本地聚合的,而是原封不動的,把ShuffleMapTask的輸出,拉取到ResultTask的內存中,所以這樣的話,會導致,所有的數據,都
相關文章
相關標籤/搜索