Spark原理篇之Shuffle詳解

1 Shuffle簡介       Shuffle描述數據從Map Task輸出到Reduce Task輸入的這段過程。Shuffle是連接Map和Reduce之間的橋樑,Map的輸出要用到Reduce中必須經過Shuffle這個環節,Shuffle的性能高低直接影響了整個程序的性能和吞吐量。因爲在分佈式情況下,Reduce Task需要跨節點去拉取其他節點上的Map Task結果。這一過程將會產
相關文章
相關標籤/搜索