spark 大型項目實戰(三十五):--Shuffle調優之合併map端輸出文件

如果不合並map端輸出文件的話,會怎麼樣? 前置條件: 每個executor有2個cpu core。4個task。 task是線程執行的。 所以先並行跑2個task,再跑剩下2個task 圖解如下: 第一個stage,每個task,都會給第二個stage的每個task創建一份map端的輸出文件 第二個stage,每個task,會到各個節點上面去,拉取第一個stage每個task輸出的,屬於自己的那
相關文章
相關標籤/搜索