spark shuffle總結

時間 2019-12-05

標籤 spark shuffle 總結欄目 Spark 简体版

原文原文鏈接

1、未經優化的HashShuffleManager shuffle write：數據結構 stage結束以後，每一個task處理的數據按key進行「分類」數據先寫入內存緩衝區緩衝區滿，溢出到磁盤文件最終，相同key被寫入同一個磁盤文件建立的磁盤文件數量 = 當前stagetask數量 * 下一個stage的task數量性能 shuffle read：優化從上游stage的全部task節點

>>阅读原文<<

相關文章

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<