大數據-面經附個人理解(Spark Shuffle)(1)

Spark: 1.Spark中的shuffle有哪些? 1.1.最早的Hash Based Shuffle(2.0以上被棄用) 每個Mapper對每一個Reducer都會創建相應的bucket,bucket數量爲 Mapper個數×Reducer個數。缺點是會產生太多小文件,後面將一個core上的 多個Mapper的輸出合併到同一個文件,bucket數量變爲
相關文章
相關標籤/搜索