Hadoop/Spark的shuffle面試題集合(一)

因爲shuffle階段涉及磁盤的讀寫和網絡IO,所以shuffle性能的高低直接影響整個程序的性能和吞吐量。 【注:畢竟有些東西我沒有實際應用、經歷,因此文中不免有錯,還請各路大神多多指正!】html 1. spark的shuffle 是什麼?過程? 怎麼調優? 在MapReduce過程當中須要將各個節點上的同一類數據聚集到一個節點進行計算。把這些分佈在不一樣節點的數據按照必定規則彙集到一塊兒的過
相關文章
相關標籤/搜索