大數據-面經附個人理解（Spark Shuffle）（1）

時間 2021-01-15

原文原文鏈接

Spark： 1.Spark中的shuffle有哪些？ 1.1.最早的Hash Based Shuffle（2.0以上被棄用）每個Mapper對每一個Reducer都會創建相應的bucket，bucket數量爲 Mapper個數×Reducer個數。缺點是會產生太多小文件，後面將一個core上的多個Mapper的輸出合併到同一個文件，bucket數量變爲

>>阅读原文<<