Spark Rdd coalesce()方法和repartition()方法

在Spark的Rdd中,Rdd是分區的。 有時候需要重新設置Rdd的分區數量,比如Rdd的分區中,Rdd分區比較多,但是每個Rdd的數據量比較小,需要設置一個比較合理的分區。或者需要把Rdd的分區數量調大。還有就是通過設置一個Rdd的分區來達到設置生成的文件的數量。 有兩種方法是可以重設Rdd的分區:分別是 coalesce()方法和repartition()。  這兩個方法有什麼區別,看看源碼就
相關文章
相關標籤/搜索