Shuffle操做的原理與源碼分析

普通的shuffle操做 第一個特色,緩存     在Spark早期版本中,那個bucket緩存是很是很是重要的,由於須要將一個ShuffleMapTask全部的數據都寫入內存緩存以後,纔會刷新到磁盤。可是這就有一個問題,若是map side數據過多,那麼很容易形成內存溢出。因此spark在新版本中,優化了,默認那個內存緩存是100kb,而後呢,寫入一點數據達到了刷新到磁盤的閾值以後,就會將數據一
相關文章
相關標籤/搜索