MapReduce優化----Shuffle過程剖析及性能優化

shuffle的過程圖   1.    Map端 當Map 開始產生輸出時,它並不是簡單的把數據寫到磁盤,因爲頻繁的磁盤操作會導致性能嚴重下降。它的處理過程更復雜,數據首先是寫到內存中的一個緩衝區,並做了一些預排序,以提升效率。 每個Map 任務都有一個用來寫入輸出數據的循環內存緩衝區。這個緩衝區默認大小是100MB,可以通過io.sort.mb 屬性來設置具體大小。當緩衝區中的數據量達到一個特定
相關文章
相關標籤/搜索