常用PySpark API(二): partitionBy, cache, mapValues, sortBy的簡單用法

0. PairRDD的意思 PairRDD就是元素爲鍵值對的List轉化過來的RDD對象,例如 rdd_1就是一般的非pairRDD,rdd_2爲pairRDD對象,而有些SparkAPI操作是針對pairRDD對象的,例如後面將要介紹的mapValues()操作。 1. partitionBy()函數 rdd.partitionBy(int, function),可以對RDD對象分區,第一個參數
相關文章
相關標籤/搜索