Spark Shuffle演進

Shuffle就是將不同節點上相同的Key拉取到一個節點的過程。這之中涉及到各種IO,所以執行時間勢必會較長。對shuffle的優化也是spark job優化的重點。 1.Hash Shuffle Spark的Shuffle在1.2之前默認的計算引擎是HashShuffleManager 假設每個executor只有一個core,意味着一個executor只能同時運行一個task。有三個Reduc
相關文章
相關標籤/搜索