Spark基礎之shuffle原理分析

一 概述 Shuffle是對數據重新組合和分配 Shuffle就是對數據進行重組,由於分佈式計算的特性和要求,在實現細節上更加繁瑣和複雜 在MapReduce框架,Shuffle是連接Map和Reduce之間的橋樑,Map階段通過shuffle讀取數據並輸出到對應的Reduce;而Reduce階段負責從Map端拉取數據並進行計算。在整個shuffle過程中,往往伴隨着大量的磁盤和網絡I/O。所以s
相關文章
相關標籤/搜索