Spark RDD coalesce()方法和repartition()方法

在Spark的RDD中,RDD是分區的。java 有時候須要從新設置RDD的分區數量,好比RDD的分區中,RDD分區比較多,可是每一個RDD的數量比較小,須要設置一個比較合理的分區。或者須要把RDD的分區數量調大。還有就是經過設置一個RDD的分區來達到設置生成的文件的數量。 有這兩種方法是能夠重設RDD分區:分別是coalesce()方法和repartition()。 這兩個方法有什麼區別,看看源
相關文章
相關標籤/搜索