Shuffle操作的原理與源碼分析

普通的shuffle操作 第一個特點,     在Spark早期版本中,那個bucket緩存是非常非常重要的,因爲需要將一個ShuffleMapTask所有的數據都寫入內存緩存之後,纔會刷新到磁盤。但是這就有一個問題,如果map side數據過多,那麼很容易造成內存溢出。所以spark在新版本中,優化了,默認那個內存緩存是100kb,然後呢,寫入一點數據達到了刷新到磁盤的閾值之後,就會將數據一點一
相關文章
相關標籤/搜索