Spark Shuffle詳解之SortShuffle

在Spark1.2版本以後,出現了SortShuffle,這種方式以更少的中間磁盤文件產生而遠遠優於HashShuffle。而它的運行機制主要分爲兩種。一種爲普通機制,另外一種爲bypass機制。而bypass機制的啓動條件爲,當shuffle read task的數量小於等於spark.shuffle.sort.bypassMergeThreshold參數的值時(默認爲200),就會啓用bypa
相關文章
相關標籤/搜索