Hadoop/Spark的shuffle面試題

由於shuffle階段涉及磁盤的讀寫和網絡IO,因此shuffle性能的高低直接影響整個程序的性能和吞吐量。  1. spark的shuffle 是什麼?過程? 怎麼調優? 在MapReduce過程中需要將各個節點上的同一類數據彙集到一個節點進行計算。把這些分佈在不同節點的數據按照一定規則聚集到一起的過程,就稱之爲shuffle(Shuffle是Map和Reduce之間的操作,Shuffle 過程
相關文章
相關標籤/搜索