spark shuffle特色和致使shuffle的算子

Spark Shuffle操做的兩個特色 第一個特色, 在Spark早期版本中,那個bucket緩存是很是很是重要的,由於須要將一個ShuffleMapTask全部的數據都寫入內存緩存以後,纔會刷新到磁盤。可是這就有一個問題,若是map side數據過多,那麼很容易形成內存溢出。因此spark在新版本中,優化了,默認那個內存緩存是100kb,而後呢,寫入一點數據達到了刷新到磁盤的閾值以後,就會將數
相關文章
相關標籤/搜索