剖析Hadoop和Spark的Shuffle過程差異（一）

時間 2021-01-08

原文原文鏈接

爲什麼80%的碼農都做不了架構師？>>> 一、前言對於基於MapReduce編程範式的分佈式計算來說，本質上而言，就是在計算數據的交、並、差、聚合、排序等過程。而分佈式計算分而治之的思想，讓每個節點只計算部分數據，也就是隻處理一個分片，那麼要想求得某個key對應的全量數據，那就必須把相同key的數據彙集到同一個Reduce任務節點來處理，那麼Mapreduce範式定義了一個叫做Sh