Spark Shuffle

1. Shuffle相關 當Map的輸出結果要被Reduce使用時,輸出結果需要按key哈希,並且分發到每一個Reducer上去,這個過程就是shuffle。由於shuffle涉及到了磁盤的讀寫和網絡的傳輸,因此shuffle性能的高低直接影響到了整個程序的運行效率。概念上shuffle就是一個溝通數據連接(map和reduce)的橋樑。每個ReduceTask從每個Map Task產生數的據中讀
相關文章
相關標籤/搜索