spark shuffle詳解

Shuffle是MapReduce框架中的一個特定的phase,介於Map phase和Reduce phase之間,當Map的輸出結果要被Reduce使用時,輸出結果需要按key哈希,並且分發到每一個Reducer上去,這個過程就是shuffle。由於shuffle涉及到了磁盤的讀寫和網絡的傳輸,因此shuffle性能的高低直接影響到了整個程序的運行效率。 下面這幅圖清晰地描述了MapReduc
相關文章
相關標籤/搜索