[大數據] Spark Shuffle詳解

Shuffle簡介 Shuffle描述着數據從map task輸出到reduce task輸入的這段過程。shuffle是連接Map和Reduce之間的橋樑,Map的輸出要用到Reduce中必須經過shuffle這個環節,shuffle的性能高低直接影響了整個程序的性能和吞吐量。因爲在分佈式情況下,reduce task需要跨節點去拉取其它節點上的map task結果。這一過程將會產生網絡資源消耗
相關文章
相關標籤/搜索