大數據面試題——Spark面試題（四）

時間 2021-02-03

標籤大數據面試題總結 1024程序員節 Spark面試題總結大數據欄目快樂工作简体版

原文原文鏈接

1、Spark中的HashShufle的有哪些不足？ 1）shuffle產生海量的小文件在磁盤上，此時會產生大量耗時的、低效的IO操作； 2）容易導致內存不夠用，由於內存需要保存海量的文件操作句柄和臨時緩存信息，如果數據處理規模比較大的話，容易出現OOM； 3）容易出現數據傾斜，導致OOM。 2、 conslidate是如何優化Hash shuffle時在map端產

>>阅读原文<<