Spark Rdd coalesce()方法和repartition()方法

時間 2021-01-16

原文原文鏈接

在Spark的Rdd中，Rdd是分區的。有時候需要重新設置Rdd的分區數量，比如Rdd的分區中，Rdd分區比較多，但是每個Rdd的數據量比較小，需要設置一個比較合理的分區。或者需要把Rdd的分區數量調大。還有就是通過設置一個Rdd的分區來達到設置生成的文件的數量。有兩種方法是可以重設Rdd的分區：分別是 coalesce()方法和repartition()。這兩個方法有什麼區別，看看源碼就

>>阅读原文<<