spark 大型項目實戰(三十五):--Shuffle調優之原理概述

什麼樣的情況下,會發生shuffle? 在spark中,主要是以下幾個算子:groupByKey、reduceByKey、countByKey、join,等等。 什麼是shuffle? groupByKey,要把分佈在集羣各個節點上的數據中的同一個key,對應的values,都給集中到一塊兒,集中到集羣中同一個節點上,更嚴密一點說,就是集中到一個節點的一個executor的一個task中。 然後呢
相關文章
相關標籤/搜索