Spark RDD之Key-Value類型操作詳解

partitionBy案例 1. 作用:對pairRDD進行分區操作,如果原有的partionRDD和現有的partionRDD是一致的話就不進行分區, 否則會生成ShuffleRDD,即會產生shuffle過程。 2. 需求:創建一個4個分區的RDD,對其重新分區 (1)創建一個RDD scala> val rdd = sc.parallelize(Array((1,"aaa"),(2,"bbb
相關文章
相關標籤/搜索