第四篇：coalesce 和repartition 在shuffle 和並行度之間的選擇（spark2.3持續更新中...........）

時間 2019-12-05

標籤第四 coalesce repartition shuffle 並行之間選擇 spark2.3 spark 持續更新欄目 Spark 简体版

原文原文鏈接

coalesce：不須要shuffle, 最大線程數，並行度受分區數的影響,若是合併成的分區數過少，能夠採用repartitionspa def coalesce(numPartitions: Int): Dataset[T] = withTypedPlan { Repartition(numPartitions, shuffle = false, logicalPlan) } repar

>>阅读原文<<