Spark Shuffle詳解之HashShuffle

概述 所謂Shuffle就是將不同節點上相同的Key拉取到一個節點的過程。這之中涉及到各種IO,所以執行時間勢必會較長,Spark的Shuffle在1.2之前默認的計算引擎是HashShuffleManager,不過HashShuffleManager有一個十分嚴重的弊端,就是會產生大量的中間文件。在1.2之後默認Shuffle改爲SortShuffleManager,相對於之前,在每個Task雖
相關文章
相關標籤/搜索