spark——Shuffle模塊詳解

時間 2021-02-28

標籤 shuffle spark 欄目 Spark 简体版

原文原文鏈接

將數據打亂重新分配到不同節點上的過程就是shuffle。Shuffle的目的就是將具有共同的特徵的數據匯聚在同一個節點上來處理，比如hadoop的reduce還有排序等作用。當然並不是所有的shuffle過程都有排序，甚至爲了減少排序帶來不必要的開銷，spark最初的框架中用的Hash Based Shuffle Write就是這樣設計的，沒有排序。 Spark集羣Shuffle分爲2部分：Map

>>阅读原文<<