spark-shuffle總結及調優

spark1.2  默認使用的是 HashShuffle  寫入磁盤流程:     將每個task 處理的數據,按照 key 的 hash 進行分類,從而相同的 key 寫入到同一個磁盤文件裏面,而每個磁盤文件都只屬於下游 stage 的一個 task,將數據寫入到磁盤前,會先將數據寫入到內存緩衝中,當內存緩衝填滿後,溢寫到磁盤文件中       不排序,當前 stage 的每個 maptask,
相關文章
相關標籤/搜索