Spark中repartition和coalesce的用法

repartition(numPartitions:Int):RDD[T]和coalesce(numPartitions:Int,shuffle:Boolean=false):RDD[T] 他們兩個都是RDD的分區進行重新劃分,repartition只是coalesce接口中shuffle爲true的簡易實現,(假設RDD有N個分區,需要重新劃分成M個分區) 1)、N<M。一般情況下N個分區有數據
相關文章
相關標籤/搜索