shuffle

1.    Map端 當Map 開始產生輸出時,它並非簡單的把數據寫到磁盤,由於頻繁的磁盤操做會致使性能嚴重降低。它的處理過程更復雜,數據首先是寫到內存中的一個緩衝區,並作了一些預排序,以提高效率。apache 每一個Map 任務都有一個用來寫入輸出數據的循環內存緩衝區。這個緩衝區默認大小是100MB,能夠經過io.sort.mb 屬性來設置具體大小。當緩衝區中的數據量達到一個特定閥值(io.so
相關文章
相關標籤/搜索