Spark的兩種核心shuffle是什麼?

spark的Shuffle有Hash Shuffle和Sort Shuffle兩種。 在Spark 1.2之前,默認的shuffle計算引擎是HashShuffleManager。   HashShuffleManager有着一個很是嚴重的弊端,就是會產生大量的中間磁盤文件,進而由大量的磁盤IO操做影響了性能。所以在Spark 1.2之後的版本中,默認的ShuffleManager改爲了SortS
相關文章
相關標籤/搜索