spark重分區算子repartition和coalesce解析

時間 2020-01-22

標籤 spark 分區算子 repartition coalesce 解析欄目 Spark 简体版

原文原文鏈接

在spark中，有時候咱們以爲task並行度過小，就想着提升其並行度。首先，先說一下有多少種增長分區提升並行度的方法： 1，textFile(path, numPartion=partitionNum) 2，增長hdfs上的block數 3，reduceByKey groupByKey shuffle算子能夠指定返回的RDD的分區數，如reduceByKey(+, 10) 4，重

>>阅读原文<<