spark的shuffle和原理分析

spark的shuffle和原理分析 1 、概述 Shuffle就是對數據進行重組,因爲分佈式計算的特性和要求,在實現細節上更加繁瑣和複雜。 在MapReduce框架,Shuffle是鏈接Map和Reduce之間的橋樑,Map階段經過shuffle讀取數據並輸出到對應的Reduce;而Reduce階段負責從Map端拉取數據並進行計算。在整個shuffle過程當中,每每伴隨着大量的磁盤和網絡I/O
相關文章
相關標籤/搜索