Shuffle原理剖析與源碼分析

時間 2020-12-27

原文原文鏈接

普通Spark Shuffle操作第一個特點：在Spark早期版本中，那個bucket緩存是非常非常重要的，因爲需要將一個ShuffleMapTask所有的數據都寫入內存緩存之後，纔會刷新到磁盤。但是這就有一個問題，如果map side數據過多，那麼很容易造成內存溢出。所以spark在新版本中，優化了，默認那個內存緩存是100kb，然後呢，寫入一點數據達到了刷新到磁盤的閾值之後，就會將數據一點

>>阅读原文<<