spark shuffle總結

1、未經優化的HashShuffleManager shuffle write:數據結構 stage結束以後,每一個task處理的數據按key進行「分類」 數據先寫入內存緩衝區 緩衝區滿,溢出到磁盤文件 最終,相同key被寫入同一個磁盤文件 建立的磁盤文件數量 = 當前stagetask數量 * 下一個stage的task數量性能 shuffle read:優化 從上游stage的全部task節點
相關文章
相關標籤/搜索