spark shuffle

一、HashShuffle 1.1 未優化的 HashShuffle ​ 步驟: 每個 Mapper Task 都按照 Reducer Task 的數量 n 把不同的 key 對應的數據先寫到 n 個 buffer 中,如果 buffer 達到閾值,就溢出到文件中; Reducer Task 抓取所有 Mapper Task 產生的文件。 ​ 缺點: 會產生大量小文件,如果有一共有 1000 個
相關文章
相關標籤/搜索