Spark技術內幕: 如何解決Shuffle Write必定要落盤的問題?

在Spark 0.6和0.7時,Shuffle的結果都須要先存儲到內存中(有可能要寫入磁盤),所以對於大數據量的狀況下,發生GC和OOM的機率很是大。所以在Spark 0.8的時候,Shuffle的每一個record都會直接寫入磁盤,而且爲下游的每一個Task都生成一個單獨的文件。這樣解決了Shuffle解決都須要存入內存的問題,可是又引入了另一個問題:生成的小文件過多,尤爲在每一個文件的數據量不
相關文章
相關標籤/搜索