圖解Spark Shuffle的發展歷程

時間 2020-12-27

原文原文鏈接

一、Spark Hash Shuffle 基於Hash的Shuffle Write操作較爲簡單，這種Shuffle方式中，Shuffle Map Task會根據下游生成的Partition個數來創建中間文件來存儲對應的Partition數據。如下圖所示，下游生成3個Partition，此時每個Shuffle Map Task會生成3箇中間文件來存儲3個Partition中的數據。如一

>>阅读原文<<