圖解Spark Shuffle的發展歷程

一、Spark Hash Shuffle        基於Hash的Shuffle Write操作較爲簡單,這種Shuffle方式中,Shuffle Map Task會根據下游生成的Partition個數來創建中間文件來存儲對應的Partition數據。如下圖所示,下游生成3個Partition,此時每個Shuffle Map Task會生成3箇中間文件來存儲3個Partition中的數據。如一
相關文章
相關標籤/搜索