第四篇:coalesce 和repartition 在shuffle 和並行度之間的選擇(spark2.3持續更新中...........)

coalesce:不須要shuffle, 最大線程數,並行度受分區數的影響,若是合併成的分區數過少,能夠採用repartitionspa def coalesce(numPartitions: Int): Dataset[T] = withTypedPlan { Repartition(numPartitions, shuffle = false, logicalPlan) }  repar
相關文章
相關標籤/搜索