Spark之Shuffle總結

Shuffle概念 shuffle,是一種多對多的依賴關係,即每個Reduce Task從每個Map Task產生數的據中讀取一片數據,極限情況下可能觸發M*R個數據拷貝通道(M是Map Task數目,R是Reduce Task數目)。 Shuffle描述着數據從map task輸出到reduce task輸入的這段過程。shuffle是連接Map和Reduce之間的橋樑,Map的輸出要到Redu
相關文章
相關標籤/搜索