shuffle原理

shuffle階段又可以分爲Map端的shuffle和Reduce端的shuffle。 一、Map端的shuffle Map端會處理輸入數據併產生中間結果,這個中間結果會寫到本地磁盤,而不是HDFS。每個Map的輸出會先寫到內存緩衝區中,當寫入的數據達到設定的閾值時,系統將會啓動一個線程將緩衝區的數據寫到磁盤,這個過程叫做spill。 在spill寫入之前,會先進行二次排序,首先根據數據所屬的pa
相關文章
相關標籤/搜索