Spark中自定義分區器實現shuffle

 Spark中實現了兩種類型的分區函數,一個是基於哈希的HashPartitioner,另一個是基於範圍的RangPartitioner。只對於key--value的java 的RDD纔有Partitioner。決定shuffle後的分區輸出數量。同時咱們能夠自定義Partitioner。apache     import java.net.URL import org.apache.spark
相關文章
相關標籤/搜索