Spark源碼系列（六）Shuffle的過程解析

時間 2020-12-27

標籤 Spark 欄目 Spark 简体版

原文原文鏈接

Spark大會上，所有的演講嘉賓都認爲shuffle是最影響性能的地方，但是又無可奈何。之前去百度面試hadoop的時候，也被問到了這個問題，直接回答了不知道。這篇文章主要是沿着下面幾個問題來開展： 1、shuffle過程的劃分？ 2、shuffle的中間結果如何存儲？ 3、shuffle的數據如何拉取過來？ Shuffle過程的劃分 Spark的操作模型是基於RDD的，當調用RDD的reduc

>>阅读原文<<