性能調優-shuffle調優

時間 2019-12-05

原文原文鏈接

shuffle調優什麼狀況下會發生shuffle，而後shuffle的原理是什麼? 在spark中，主要是如下幾個算子：groupByKey、reduceByKey、countByKey、join，等等。什麼是shuffle？ groupByKey，要把分佈在集羣各個節點上的數據中的同一個key，對應的values，都給集中到一起，集中到集羣中同一個節點上，更嚴密一點說，就是集中到一個節點的

>>阅读原文<<