大數據面試題——Spark的Shuffle配置調優

1、Shuffle優化配置 - spark.shuffle.file.buffer 默認值:32k 參數說明:該參數用於設置shuffle write task的BufferedOutputStream的buffer緩衝大小。將數據寫到磁盤文件之前,會先寫入buffer緩衝中,待緩衝寫滿之後,纔會溢寫到磁盤。        調優建議:如果作業可用的內存資源較爲充足的話,可以適當增加這個參數的大小(
相關文章
相關標籤/搜索