Shuffle調優之合併map端輸出文件(三)

什麼樣的情況下,會發生shuffle? 在spark中,觸發Action算子就會發生shuffle,主要是以下幾個算子:groupByKey、reduceByKey、countByKey、join等等。 什麼是shuffle? groupByKey,要把分佈在集羣各個節點上的數據中的同一個key,對應的values,都給集中到一塊兒,集中到集羣中同一個節點上,更嚴密一點說,就是集中到一個節點的一個
相關文章
相關標籤/搜索