剖析Hadoop和Spark的Shuffle過程差別（一）

時間 2019-11-06

標籤剖析 hadoop spark shuffle 過程差別欄目 Hadoop 简体版

原文原文鏈接

1、前言算法

對於基於MapReduce編程範式的分佈式計算來講，本質上而言，就是在計算數據的交、並、差、聚合、排序等過程。而分佈式計算分而治之的思想，讓每一個節點只計算部分數據，也就是隻處理一個分片，那麼要想求得某個key對應的全量數據，那就必須把相同key的數據聚集到同一個Reduce任務節點來處理，那麼Mapreduce範式定義了一個叫作Shuffle的過程來實現這個效果。編程

2、編寫本文的目的緩存

本文旨在剖析Hadoop和Spark的Shuffle過程，並對比二者Shuffle的差別。網絡

3、Hadoop的Shuffle過程分佈式

Shuffle描述的是數據從Map端到Reduce端的過程，大體分爲排序（sort）、溢寫（spill）、合併（merge）、拉取拷貝（Copy）、合併排序（merge sort）這幾個過程，大致流程以下：函數

上圖的Map的輸出的文件被分片爲紅綠藍三個分片，這個分片的就是根據Key爲條件來分片的，分片算法能夠本身實現，例如Hash、Range等，最終Reduce任務只拉取對應顏色的數據來進行處理，就實現把相同的Key拉取到相同的Reduce節點處理的功能。下面分開來講Shuffle的的各個過程。oop

Map端作了下圖所示的操做：fetch

一、Map端sortserver

Map端的輸出數據，先寫環形緩存區kvbuffer，當環形緩衝區到達一個閥值（能夠經過配置文件設置，默認80），便要開始溢寫，但溢寫以前會有一個sort操做，這個sort操做先把Kvbuffer中的數據按照partition值和key兩個關鍵字來排序，移動的只是索引數據，排序結果是Kvmeta中數據按照partition爲單位彙集在一塊兒，同一partition內的按照key有序。blog

二、spill（溢寫）

當排序完成，便開始把數據刷到磁盤，刷磁盤的過程以分區爲單位，一個分區寫完，寫下一個分區，分區內數據有序，最終實際上會屢次溢寫，而後生成多個文件

三、merge(合併)

spill會生成多個小文件，對於Reduce端拉取數據是至關低效的，那麼這時候就有了merge的過程，合併的過程也是同分片的合併成一個片斷（segment），最終全部的segment組裝成一個最終文件，那麼合併過程就完成了,以下圖所示

至此，Map的操做就已經完成，Reduce端操做即將登場

Reduce操做

整體過程以下圖的紅框處：

一、拉取拷貝（fetch copy）

Reduce任務經過向各個Map任務拉取對應分片。這個過程都是以Http協議完成，每一個Map節點都會啓動一個常駐的HTTP server服務，Reduce節點會請求這個Http Server拉取數據，這個過程徹底經過網絡傳輸，因此是一個很是重量級的操做。

二、合併排序

Reduce端，拉取到各個Map節點對應分片的數據以後，會進行再次排序，排序完成，結果丟給Reduce函數進行計算。

4、總結