Spark筆記

1.shuflle 在Spark或Hadoop MapReduce的分佈式計算框架中,數據被按照key分成一塊一塊的分區,打散分佈在集羣中各個節點的物理存儲或內存空間中,每個計算任務一次處理一個分區,但map端和reduce端的計算任務並非按照一種方式對相同的分區進行計算,例如,當需要對數據進行排序時,就需要將key相同的數據分佈到同一個分區中,原分區的數據需要被打亂重組,這個按照一定的規則對數據
相關文章
相關標籤/搜索