spark 算子之 reduceByKey與groupByKey的區別

時間 2021-01-12

原文原文鏈接

補充：reduceByKey與groupByKey的區別？ [優化代碼的最基本思路] （1）當採用reduceByKeyt時，Spark可以在每個分區移動數據之前將待輸出數據與一個共用的key結合。藉助下圖可以理解在reduceByKey裏究竟發生了什麼。注意在數據對被搬移前同一機器上同樣的key是怎樣被組合的(reduceByKey中的lamdba函數)。然後lamdba函數在每個區上

>>阅读原文<<