Spark Shuffle的基本原理與特性

通過文章「Spark Scheduler內部原理剖析」我們知道,Spark在DAG調度階段會將一個Job劃分爲多個Stage,上游Stage做map工作,下游Stage做reduce工作,其本質上還是MapReduce計算框架。Shuffle是連接map和reduce之間的橋樑,它將map的輸出對應到reduce輸入中,這期間涉及到序列化反序列化、跨節點網絡IO以及磁盤讀寫IO等,所以說Shuff
相關文章
相關標籤/搜索