Spark的Shuffle總結分析

前言 一、shuffle原理分析 1.1 shuffle概述 Shuffle就是對數據進行重組,由於分佈式計算的特性和要求,在實現細節上更加繁瑣和複雜。 在MapReduce框架,Shuffle是連接Map和Reduce之間的橋樑,Map階段通過shuffle讀取數據並輸出到對應的Reduce,而Reduce階段負責從Map端拉取數據並進行計算。在整個shuffle過程中,往往伴隨着大量的磁盤和網
相關文章
相關標籤/搜索