149、Spark核心編程進階之Shuffle相關

shuffle操作原理 是spark中一些特殊的算子操作會觸發的一種操作 shuffle操作,會導致大量的數據在不同的機器和節點之間進行傳輸,因此也是spark中最複雜、最消耗性能的一種操作 我們可以通過reduceByKey操作作爲一個例子,來理解shuffle操作 先看圖 shuffle操作原理.png reduceByKey算子會將上一個RDD中的每個key對應的所有value都聚合成一個v
相關文章
相關標籤/搜索