大數據面試題——Spark面試題(四)

1、Spark中的HashShufle的有哪些不足?     1)shuffle產生海量的小文件在磁盤上,此時會產生大量耗時的、低效的IO操作;      2)容易導致內存不夠用,由於內存需要保存海量的文件操作句柄和臨時緩存信息,如果數據處理規模比較大的話,容易出現OOM;      3)容易出現數據傾斜,導致OOM。   2、 conslidate是如何優化Hash shuffle時在map端產
相關文章
相關標籤/搜索