大數據學習之路75-RDD的算子使用

時間 2021-01-20

原文原文鏈接

我們之前在scala中使用過aggregate,這個我們將與spark中的aggregate進行對比 Scala: 我們這裏使用的scala的aggregate方法是單機跑的 Spark: 首先來看我們處理的數據：我們將他並行化處理，設置分區爲2,這樣的話爲了數據均衡，9/2=4.5，所以將會出現一個分區爲4個數，另一個分區爲5個數。我們先來分析第一個操作：從這個結果可以看出aggregat

>>阅读原文<<