spark——Shuffle模塊詳解

將數據打亂重新分配到不同節點上的過程就是shuffle。Shuffle的目的就是將具有共同的特徵的數據匯聚在同一個節點上來處理,比如hadoop的reduce還有排序等作用。當然並不是所有的shuffle過程都有排序,甚至爲了減少排序帶來不必要的開銷,spark最初的框架中用的Hash Based Shuffle Write就是這樣設計的,沒有排序。 Spark集羣Shuffle分爲2部分:Map
相關文章
相關標籤/搜索