152、Spark內核原理進階之groupByKey算子內部實現原理

一般來說,在執行shuffle類的算子的時候,比如groupByKey、reduceByKey、join等。 其實算子內部都會隱式地創建幾個RDD出來。那些隱式創建的RDD,主要是作爲這個操作的一些中間數據的表達,以及作爲stage劃分的邊界。 因爲有些隱式生成的RDD,可能是ShuffledRDD,dependency就是ShuffleDependency,DAGScheduler的源碼,就會將
相關文章
相關標籤/搜索