Spark源碼系列(六)Shuffle的過程解析

Spark大會上,所有的演講嘉賓都認爲shuffle是最影響性能的地方,但是又無可奈何。之前去百度面試hadoop的時候,也被問到了這個問題,直接回答了不知道。 這篇文章主要是沿着下面幾個問題來開展: 1、shuffle過程的劃分? 2、shuffle的中間結果如何存儲? 3、shuffle的數據如何拉取過來? Shuffle過程的劃分 Spark的操作模型是基於RDD的,當調用RDD的reduc
相關文章
相關標籤/搜索